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1. Introducción 





R es un lenguaje interpretado (como 
Java) y no compilado (como Fortran 
o Pascal). Es decir, los comandos 
escritos en el teclado son 
ejecutados directamente sin 
necesidad de construir un 
ejecutable. 





1. Introducción 


El “R” es un lenguaje de programación para análisis estadístico muy versátil y poderoso y 
su aplicación se ha popularizado en el ámbito del análisis de datos por lo robusto del 
lenguaje, lo simple de su manejo y aplicación y su naturaleza multiplataforma, lo que lo 
hace muy útil, sin importar el sistema operativo que se utilice. 

Existen muchos cursos para el aprendizaje del R, tanto en instituciones educativas, como 
en la web. Sin embargo la mayoría de los cursos profundizan en el aspecto de 
programación en R y no en su aplicación práctica por parte de un investigador que no 
desee dedicarse a la programación de código más elaborado. 


El presente documento busca dar un enfoque más sencillo y práctico al uso de R para el 
análisis de datos sin profundizar en los aspectos de programación, para investigaciones 
pequeñas, estudios de tesis, ejercicios de aprendizaje de bioestadística, resolución de 
ejercicios para estudiantes que cursan estadística y para el análisis de datos en el ámbito 
docente. 
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Primeros pasos 


El presente libro busca ser un manual de aplicación práctica de R, y no debería ser 
considerado un curso introductorio al mismo. Es muy recomendable que se reciba un 
curso inicial para conocer qué es el R, su historia, su naturaleza, su aplicación como 
lenguaje de programación y su empleo en el análisis de datos. 


Asumo que ya existe un conocimiento básico previo y haré énfasis en explicar algunos 
pasos prácticos para el uso del R desde la consola de comandos, para que las 
instrucciones sean aplicables en cualquier sistema operativo o plataforma. 


Es recomendable tener otros libros de referencia para profundizar en los comandos, 
programación, sintaxis, etc. así como blogs y publicaciones de páginas web que puedan 
orientarnos. 


Dos textos indispensables, que se encuentran disponibles en la web son: 


O “R para principiantes” de Emmanuel Paradis. 
O “Introducción a R Notas sobre R: Un entorno de programación para Análisis de 
Datos y Gráficos” Versión 1.0.1 (2000-05-16) de R Core Team. 


Existen algunas diferencias fundamentales en el manejo de los distintos sistemas 
operativos que deben tenerse en cuenta, en Windows los directorios se manejan de 
manera diferente a como se hace en Linux, de tal manera que el directorio raíz de Windows 
probablemente sea “CNV” mientras que en Linux probablemente iniciemos en 
“home/usuario/” por lo que el archivo de trabajo va a ser diferente dependiendo del 
sistema operativo que se utilice. 


En lo personal mi sistema operativo es el Linux desde hace muchos años, por lo que voy a 
presentar el manejo del R desde la consola de Linux. 

Sin embargo el manejo del R en sí mismo es igual sin importar el sistema operativo o la 
plataforma que se esté empleando, por lo que el presente manual puede ser aplicado 
prácticamente sin modificación, excepto en los aspectos que involucren otros directorios. 


El uso de R Studio y la ventana de comandos en Windows se cubre en otros cursos 
existentes en la web y no voy a hacer referencia a ellos. 
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Algunos comandos para tener en cuenta: 


R , desde la consola, para iniciar el programa R. 

a , para terminar la sesión y salir de R . 

[Ctrl]+[L] , para borrar la pantalla de trabajo. 
Install.packages() , para descargar paquetes. 

library() , para cargar librerías. 

stem() , produce un diagrama de tallo y hojas. 

hist() , produce un histograma. 

Summary() , produce un resumen de los datos. 

table() , produce un resumen con categorías y recuentos. 
head() , muestra los primeros 6 registros de un objeto. 
tail() , muestra los últimos 6 registros de un objeto. 
name() , muestra los nombres de las variables en un objeto. 
Is('package:datasets”) , muestra el listado de todos los datasets incluidos en R 
base que pueden usarse para prácticas y ejercicios. 
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Generalidades de R. 


R es un lenguaje de programación orientado a objetos, pero podemos utilizarlo para el 
análisis de datos sin entrar a la parte de programación y elaboración de programas. 


Para el usuario avanzado y que desea desatar toda la capacidad de R, es indispensable la 
programación. Pero para el estudiante, profesor o investigador ocasional, la parte de 
elaboración de código y programas, es algo que puede dejarse de lado. 


Sin embargo, debemos entender algunos términos técnicos para poder comunicarnos de 
una manera efectiva. 


R se ejecuta desde una ventana de comandos, como lo hacían anteriormente los 
programas que se ejecutaban en mainframes o DOS. Esto es una ventana donde se 
ingresan comandos en la línea inferior y que da como respuesta una serie de líneas de 
texto en las líneas superiores como que estuvieran siendo impresas en la pantalla. 


Estas líneas que produce el programa como respuesta a nuestros comandos se 
denominan “salidas” . 


Las “salidas” son los resultados que nos interesan y podemos guardarlas en un archivo de 
texto “salvarlas” o  copiarlas directamente con el mouse, como generalmente 
seleccionamos un texto, con [CTRL] + [C] . Y luego pegarlas con [CTRL]+[v] en nuestro 
procesador de texto preferido. 


Existen ciertos “frentes gráficos” para utilizar con R, como el R Studio, que son programas 
que interactúan con el usuario para ayudar sobre todo en las tareas de programación. 


Para la ejecución de R para análisis de datos, no son necesarios estos programas y hacen 
poco por el usuario, así que no profundizaré en ellos. 


Para iniciar el programa: 


O En Windows, hacemos doble click en el ícono de R, o lo buscamos dentro de nuestro 
menú de programas. 

e En Linux, entramos a la consola de comandos, escribimos “R” (sin las comillas) y le 
damos [Enter] 


*_Yn 


Una vez dentro de la ventana de R, vamos a observar un signo de “mayor que”, “>” este es 
el “prompt” desde donde escribimos los comandos y nos indica que el programa está listo 
para recibir órdenes. 
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Podemos utilizar el R como una calculadora científica, exactamente de la misma forma 
que utilizamos una calculadora convencional. 


Escribimos las operaciones y el programa nos da la respuesta. 


Escribimos la operación y el programa nos da 


la respuesta. 





Podemos guardar los resultados en un objeto denominado “vector”. 


Un vector es una colección ordenada de números y es la estructura más simple de datos 
que es capaz de manejar R. 


Pero también podemos guardar una serie de datos o los resultados de operaciones 
complejas. 


4. 9 


Guardamos el resultado de la suma en “a 
Pedimos que nos muestre el contenido de “a” 
Guardamos el resultado de “a + 5” 


Pedimos que nos muestre el contenido e “b” 





Para crear un vector de datos incluimos los mismos en un único objeto a través del 
comando c(), que podemos entenderlo como “concatenar”. 


> serie.a <- C(1,2,3,4,5,) Ingresamos los datos a un vector de nombre “serie.a”. 
> El * <- * simula una flecha, que indica que los datos 
>serie.a serán incluidos en el vector. 

[111,2,3,4,5 


Puede emplearse también el signo igual “=”. 


> serie.b = c(6,7,8,9,10) 





Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 12 


2. Instalación 





R es un ambiente de programación 
gratuito y de código abierto, un 
Open Source parte del proyecto 
GNU, como Linux o Mozilla Firefox. 





—R 


2. Instalación de R 


Windows 


Para la instalación de R en Windows es recomendable revisar cualquier curso de manejo 
de R en windows, la mayoría de ellos explica como poder instalar el programa desde el 
sitio oficial: 

https: //www.r-project.org/ 
Descarga e instalación 


Accedemos a la página del proyecto R en “http://r-project.org” 








€ 3 CA rprjetor 


E The R Project for 
Statistical Computing 


[Home] 





Getting Started 


R is a free software environment for statistical computing and graphics. lt 


Download 
CRAN 8 . ] 
compiles and runs on a wide variety of UNIX platforms, Windows and 


E brojed MacOS. To download R, please choose your preferred CRAN mirror. 


AN If you have questions about R like how to download and install the software, 
or what the license terms are, please read our answers to frequently asked 


Logo : Ñ 
questions before you send an email. 


Contributors 
What's New? 
Reporting Bugs News 

Conferences . A 

E « R version 4.1.2 (Bird Hippie) has been released on 2021-11-01. 


Get Involved: + R version 4.0.5 (Shake and Throw) was released on 2021-03-31. 


Mailing Lists + Thanks to the organisers of useR! 2020 for a successful online 
Developer Pages conference. Recorded tutorials and talks from the conference are 
R Blog available on the R Consortium YouTube channel. 


+ You can support the R Foundation with a renewable subscription as a 
R Foundation supporting member 


Seleccionamos el enlace “download R” 
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CINE, 


A cran.r-projectorg/mirrors.html 








CRAN Mirrors 


The Comprehensive R Archive Network is available at the following URLs, please choose a location close to you. Some statistics on the 
status of the mirrors can be found here: main page, windows release, windows old release. 





If you want to host a new mirror at your institution, please have a look at the CRAN Mirror HOWTO. 


0-Cloud 


https://cloud.r-project.org/ 


Algeria 
https://cran.usthb.dz/ 
Argentina 


http://mirrorfcaglp.unlp.edu.ar/CRAN/ 
Australia 

https://cran.csiro.au/ 

https://mirror.aarnet.edu.au/pub/CRAN/ 

https://cran.ms.unimelb.edu.au/ 


https://cran.curtin.edu.au/ 
Austria 


https://cran.wu.ac.at/ 

Belgium 
https://wwwfreestatistics.org/cran/ 
https://ftp.belnet.be/mirror/CRAN/ 

Brazil 


https://nbcgib.uesc.br/mirrors/cran/ 


https://cran-r.c3sl.ufpr.br/ 
https://cran.fiocruz.br/ 














Automatic redirection to servers worldwide, currently sponsored 
by Rstudio 


University of Science and Technology Houari Boumediene 
Universidad Nacional de La Plata 


CSIRO 

AARNET 

School of Mathematics and Statistics, University of Melbourne 
Curtin University 


Wirtschaftsuniversitát Wien 


Patrick Wessa 
Belnet, the Belgian research and education network 


Computational Biology Center at Universidade Estadual de Santa 
Cruz 


Universidade Federal do Parana 
Oswaldo Cruz Foundation, Rio de Janeiro 


Nos solicita que seleccionemos el servidor que nos convenga. Podemos seleccionar 
“O-Cloud”, o alguno que tengamos en nuestro país de origen. 











esa 





6 cloud.rpmjectorg 





R for Windows 


Subdirectories: 










€ >C 4 cousrpmjectoa 


R-4.1.2 for Windows (32/64 bit) 


Download R 4.1.2 for Windows (86 megabytes, 32/64 bit) 


R base 























Binarles for base distribution. This is what you want to install R for the first 
time. 








Contributed 





Seleccionamos “base” 


FAQs 
Contributed 


Y por último hacemos click en la 
distribución que nos interesa. 





y Installation and other instructions 
CRAN Binaries of contributed CRAN packages (for R >= 2.13.x; managed by Uwe New features in this version 
Mirrors contrib Ligges). There ¡is also information on third party software available for CRAN CRAN 
Yihat's new? Windows services and corresponding environment and make variables, o If you want to double-check that the package you have downloaded matches the package distributed by 
Jask Views old contrib Binaries of contributed CRAN packages for outdated versions of R (for R < Whats new? CRAN, you can compare the md5sum of the .exe to the fingerprint on the master server. You will need a 
Search A 2,13.x; managed by Uwe Ligges), . version of md5sum for windows: both graphical and command line versions are available. 
le Tools to build R and R packages. This is what you want to build your own Search 
About R e packages on Windows, or to build R itself. Frequently asked questions 
R Homepage aa 
The R Journal Please do not submit binaries to CRAN. Package developers might want to contact Uwe Ligges directly in casa B Homepage + Does R run under my version of Windows? 
of questions / suggestions related to Windows binaries. A + How do | update packages in my previous version of R7 
Software + Should | run 32-bit or 64-bit R? 
R Sources You may also want to read the R FAQ and R for Windows FAO. Software 
Z Binaries A Sources Please see the R FAQ for general information about R and the R Windows FAQ for Windows-specific 
Packages Note: CRAN does some checks on these binaries for viruses, but cannot give guarantees. Use the normal R Binaries information. 
precautions with downloaded executables. Packages 
E Other Other builds 
Documentation 
Manuals Documentation « Patches to this release are incorporated in the r-patched snapshot build. 
FAQs Manuals + A build of the development version (which will eventually become the next major release of R) is 


available in the r-devel snapshot build. 


Note to webmasters: A stable link which will redirect to the current Windows binary release is 
< > A 








Una vez descargado el paquete, lo abrimos y ejecutamos para instalar en programa. 
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Advertencia de seguridad de Abrir archivo XX Ñ seleccione el Idioma de la Insta! 


¿Desea ejecutar este archivo? U] Seleccione el idioma a utilizar durante la 
instalación. 


CA Nombre: C:Usersifousac|Downloads|R-3.6.2-win.exe 
Editor: Jeroen Ooms 


Tipo: Aplicación z 


De: C:UsersifousacDownloads'|R-3.6.2-win.exe 


_Esecatar | ] [aceptar] Cancelar 


[ma Preguntar siempre antes de abrir este 
archivo 





(3 Aunque los archivos procedentes de Intemet pueden ser útiles, este 
y) tipo de archivo puede llegar a dañar el equipo. Sólo ejecute 
software de los editores en los que confía. ¿Cuál es el nesgo? 





12 Instalar - R for Windows 3.6.2 lar BE E AE 


Información = Seleccione la Carpeta de Destino =— 
Es importante que lea la siguiente información antes de continuar. P ¿Dónde debe instalarse R for Windows 3.6.2? Y 





Cuando esté listo para continuar con la instalación, haga clic en Siguiente. J al a Ro ea oa apela! 
ñ Z 





GNU GENERAL PUBLIC LICENSE ES 


Version 2, June 1991 Para continuar, haga clic en Siguiente. Si desea seleccionar una carpeta diferente, 


haga clic en Examinar. 
Examinar... 


Copyright (C) 1989, 1991 Free Software Foundation, Inc. 

51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA 
Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed, 





Preamble 


The licenses for most software are designed to take away your 
freedom to share and change it. By contrast, the GNU General Public 
License ¡s intended to guarantee your freedom to share and change free 
software--to make sure the software is free for all its users, This 


General Public License applies to most of the Free Software he Se requieren al menos 2,5 MB de ad 


le <nrás Cancelar | 


























a PERRITA 15) 





a Instalar - R for Windows 3.6.2 


Seleccione los Componentes > Opciones de configuración = > 


¿Qué componentes deben instalarse? Desea utilizar las opciones de configuración ? 





Seleccione los componentes que desea instalar y desmarque los componentes que no Por favor, especifique si o no y luego haga clic en Siguiente. 
desea instalar. Haga clic en Siguiente cuando esté listo para continuar. 





Osi 
(No 
Core Files 87,9 MB 
32-bit Files 48,6 MB 
O 4 bit Files 50,4 MB 
Message translations 7,3 MB 


La selección actual requiere al menos 146,1 MB de espacio en disco. 


<Atrás Cancelar < Atrás Cancelar | 
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12 Instalar - R for Windows 3.6.2 


Completando la instalación de R 
for Windows 3.6.2 


Google 
Chrome 


Haga clic en Finalizar para salir del programa de instalación. 


Al finalizar la instalación encontraremos un 
ícono nuevo en nuestro escritorio para 
iniciar el programa. 








Al ejecutar el programa se nos abrirá una ventana de comandos donde podemos colocar 
las órdenes y recibir las respuestas. 


RE RGui (32-bit) 
Archivo Editar Visualizar Misc Paquetes Ventanas Ayuda 


+8] lalo] [e] 8] 


HR Console 














R version 4.1.2 021-11-01) -- "Bird Hippie" 
Copyright (C) 21 The R Foundation for Statistical Computing 
Platform: i386-w64%-mingw32/i386 (32-bit) 


R es un software libre y viene sin GARANTIA ALGUNA. 
Usted puede redistribuirlo bajo ciertas circunstancias. 
Escriba 'license()' o 'licence()' para detalles de distribucion. 


R es un proyecto colaborativo con muchos contribuyentes. 
Escriba 'contributors()' para obtener más información y 
'citation()' para saber cómo citar R o paquetes de R en publicaciones. 


Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de ayuda, 
o 'help.start()' para abrir el sistema de ayuda HTML con su navegador. 
Escriba 'q()' para salir de R. 
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Linux 


En la mayoría de distribuciones de Linux se encuentra disponible el paquete desde el 


repositorio respectivo. 
También pueden encontrarse algunas instrucciones desde el sitio oficial 


(https: //www.r-project.org/) . 


Dos ejemplos: 

O En el caso de que estemos usando Raspbian en una Raspberry Pi, buscamos en el 
repositorio de la distribución el paquete “r-base” . Esto instala R versión 3.3.3 
ARM-Linux de 32 bit. La gran mayoría de distribuciones de Linux funcionan de esta 
manera. 


O En el caso de que estemos usando un Puppy Linux Xenial en cualquier Pc Intel, 
buscamos en el repositorio propio de la distribución “r-base_3.2.3-4” . Esto instala R 
versión 3.2.3 ¡686-pc-linux-gnu (32-bit). 


Instalación en Linux para la Raspberry Pi 3 


En la mayoría de las distribuciones de Linux el procedimiento es similar. Buscamos en el 
repositorio de nuestra distribución “r-base” y lo instalamos. 


En la Raspberry Pi 3 el sistema operativo es Raspbian una versión adaptada de Debian. 


Procedimiento 
1. Buscamos en el repositorio de nuestra versión el programa R, “r-base” (sin las comillas). 


Add / Remove Software 
Options 


A rbase = 3, interface for implementing erasure codes - Python 2.x 2 
O oranor-ovecib1.402 

$e Accesorios python-pyeclib-1.4.0-2 

El Herramientas de administración P] [O E implementatico of the Key Management Interoperability 

30 ' — python-pykmip-0.5.0-4+deb9u1 

¿] Comunicación 

pS = 7, Tiinter-based wrapper for Tk TreeCtrl 

€ Escritorio GNOME — python-tktreectri-2.0.1-1 

Escritorio KDE ya GNUR statistical computation and graphics system 

[ni] Otros escritorios L 

é Tipografías y CNUR core of statistical computation and graphics sys 

dh Juegos EX roasecore33.3-1 

2, GNUR debug symbols for statistical comp. language ar 

== rbase-core-dbg-3.3.3-1 pa 
» 


E Gráficos 

(8 Internet 

E Obsoletos 
[RI Localización 


R is a system for statistical Ti Í 61.4k8 
computation and graphics. It Licencia unknown 

[] Multimedia consists of a language plus a . 

2 Red run-time environment with 

Ed Otras. | loraohics. a debugaer. access y 


Cancel | Apply OK 
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2. Le damos OK y el programa se encarga de bajar el programa y las librerías asociadas. 


Para iniciar el programa, entramos a la consola de comandos, escribimos “R” (sin las 
comillas) y le damos [Enter] 


pifraspberrypi:- $ 





pifiraspberrypi:- $ R 


R version 3,3.3 (2017-03-06) -- "Another Canoe" 
copyright (Cc) 2017 The R Foundation for statistical Computing 
Platform: arm-unknown-linux-gnueabihf (32-bit) 


R es un software libre y viene sin GARANTIA ALGUNA, 
Usted puede redistribuirlo bajo ciertas circunstancias. 
Escriba 'license()' o 'lícence()' para detalles de distribucion. 


R es un proyecto colaborativo con muchos contribuyentes. 

Escriba 'contributors()' para obtener más información y 

'citation()' para saber cómo citar R o paquetes de R en publicaciones. 
Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de ayuda, 
o 'help.start()' para abrir el sistema de ayuda HTML con su navegador, 

Escriba 'q()' para salir de R. 


> 1 








4_Yn 


El programa se inicia y nos muestra un “>” que nos indica que está listo para recibir 
órdenes. 
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3. Instalación de librerías 
y directorio de trabajo. 





El directorio o carpeta de trabajo es 
el lugar en nuestra computadora en 
el que se encuentran los archivos 
con los que estamos trabajando en 





—R 


3. Instalación de librerías y directorio de trabajo. 


Instalación de Librerías. 


En la mayoría de los casos para instalar paquetes desde R es con el comando: 
“install.packages()” o “update.packages()” 


Colocando en el paréntesis el nombre del paquete que contiene la librería que nos interese. 
Prácticamente la única librería que se va a utilizar en el presente texto es “fBasics”. 


Por lo que para instalarla escribimos desde el R el comando: 
install. packages(“fBasics”) 


Nos pedirá que seleccionemos el repositorio a utilizar, puede ser 0-Cloud. Y el programa 
instala el paquete. 
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[O HTTPSCRAN min - 0 X O - a 


HTTPS CRAN mirror O 


O-Cloud [https] = > install.packages() 

( ¡Algeria [https] --- Please select a CRAN mirror for use in this session --- 
¡Australia (Canberra) [https] 
[Australia (Melbourne 1) [https] 

f [Australia (Melbourne 2) [https] 

l ¡Australia (Perth) [https] 
¡Austria [https] 

% Belgium (Ghent) [https] 

Brazil (PR) [https] 

Brazil (RJ) [https] —l 
Brazil (SP 1) [https] 

Brazil (SP 2) [https] 

/ Bulgaria [https] 

'' ¡Canada (BC) [https] 
¡Canada (MB) [https] 
¡Canada (NS) [https] 

(Chile 1 [https] 
¡Chile 2 [https] 
¡China (Beijing) [https] 
¡China (Hefei) [https] 
¡China (Hong Kong) [https] 
¡China (Guangzhou) [https] 
¡China (Lanzhou) [https] 
¡China (Shanghai 1) [https] 
¡China (Shanghai 2) [https] 
¡Colombia (Cali) [https] 
¡Czech Republic [https] 

ox | Cancel | 











K 





Instalación de librerías desde la pantalla de comandos, directamente desde R. 


En el caso del Puppy Linux, no funciona el comando desde R, por lo que debemos buscar 
en el repositorio del Puppy el paquete que nos interesa. En este caso particular el 
“fbasics”. 








X Install Y Puppy Package Manager v2 


install Puppy. install applications o A 
t 3 y p2) xy Uninstall | él fbasics| A Auto install 


Install applications in the current Puppy- 


The Puppy Package Manager is a tool for installing and Repositories Category Package Description 
a daa a A O teranfbasics_3011.87-2 libreria 
are known as PET packages and are identified by 'pet' O ubuntu-xenial-multiverse | $) System 

on the end of their filename, Note that apart from the á E set 

official ubuntu and PET repositories, Puppy enthusiasts O ubuntu-xenial-universe eu. 

have created many PETs at other locations, and all you g 9 Utility 

need to do is download one and click on it to install it. O puppy-noarch MN Filesystem 


SFS files are application combo-packs, e 3 a 
very easy to install and uninstall. O puppy-xenial ( Graphic 
y Document 


( Business 

(5 Personal 

A Network 

Choose an SFS file from the official repo Ha O internet gg 
El EXE | Any type 9 ] O Multimedia Packages to install Repository 
Load and unload SFS packages using the SFS-load mE 6) Fun 


Puppy Package Manager 


OD Doc 





$ f Package Manager introduction webpage O Ns 
































Instalación de librerías desde el repositorio de Puppy linux. 


Directorio de datos 


El directorio de datos, es en donde vamos a colocar nuestros archivos de datos para poder 
llamarlos y analizarlos con R. Por omisión R trabaja con el directorio raíz, sin embargo es 
recomendable modificar esto y tener un archivo dedicado para alojar nuestros datos. 


Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 20 


Para determinar el directorio de trabajo por omisión, en el que R va a leer los archivos de 
datos, utilizamos el comando: 
“getwd()” 


Para fijar un nuevo directorio de trabajo usamos el comando: 


“setwd()” 
Por ejemplo: 
setwd(“C:/Users/Investigador/Documents/R”)  ---Para Windows 
setwd(“/home/data/R”) -— Para Linux 
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4. Preparando la base de 
datos. 


Una base de datos es un conjunto 
de datos pertenecientes a un mismo 
contexto y almacenados 
sistemáticamente para su posterior 
USO. 





— WikiP 


4. Preparando la base de datos. 


Uno de los principales problemas que me he encontrado a lo largo de mi carrera docente 
en estadística e investigación, es la estructura de la base de datos que se desea analizar. 
En muchos casos es una hoja de cálculo, la cual tiene la peor estructura posible y en 
algunos casos extremos son tablas elaboradas en un procesador de palabras. 


Lo primero que debemos tener en cuenta, es que nuestro archivo de base de datos debe 


contener el registro de la información y cierta estructura para poder analizarlo de manera 
efectiva. 


Nuestro archivo de base de datos debe contener el registro de 


los datos y debe tener cierta estructura específica para poder 
analizarlo de manera efectiva. 
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Archivo Editar Ver Insertar Formato Hoja Datos Herramientas Ventana Ayuda 


No pueden analizarse 
datos agrupados oO 
archivos con celdas 
unidas, textos 
explicativos, filas O 
columnas en blanco, 
etc. 





SPrnNoworsornno 
2SO0hrorr?oorao 
S200rooooor-.o 
Sr-onoo-.oooo 

NOorwoorrooro 
SE =-90o0o=ouoaom 
NO Oo yO O YO --uyoso 
Soono-.-+-.oon-.or 








Por lo que revisaremos un poco el cómo preparar de la mejor manera posible, nuestros 
datos para poder importarlos a R. 


Vamos a asumir que tenemos los datos en una hoja electrónica, puede ser esta Excel, 
Gnumeric, LibreOffice Calc, o cualquier hoja electrónica que se utilice. 


Columnas y Filas 


O Las columnas representan a nuestras variables. Los nombres de nuestras variables 
será el encabezado de las columnas y lo vamos a ubicar en la primera fila. 


O Nuestras filas representan nuestras observaciones o unidades de estudio (los 
sujetos observados). Vamos a emplear la primera columna para ubicar los 
identificadores de las unidades de estudio. Cada identificador de fila debe ser único, 
por lo que no debemos tener identificadores repetidos. 


Veamos un ejemplo, tomado de un trabajo de investigación de estudiantes de la Facultad 
de Biología. En este caso se estaba haciendo un recuento de agujeros de cangrejos en una 
zona de playa a una altura “Media”, se estaban utilizando dos formas geométricas para el 
recuento de los agujeros de cangrejo, una cuadrada y otra rectangular y se clasificaron los 
agujeros dependiendo de su tamaño como pequeño (P), mediano (M) o grande (G) como 
una estimación de la edad del cangrejo. 
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En la imagen de la izquierda tenemos la hoja electrónica inicial donde se empezaron a 
vaciar los datos. En la imagen de la derecha tenemos la hoja electrónica ya corregida para 
poder cargar los datos para su análisis. 


Archivo Editar Ver Insertar Formato Hoja Datos He...as Archivo Editar Ver Insertar  F..to 
| | 
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Hoja 1 de 1 | PageStyle_Hoja 1 | | m] | G | | Hoja 1 de 1 | | Predeterminado| | Promedio: ; 











Estructura no adecuada Estructura adecuada 





Los nombres de las columnas (nombres de las variables) deben ser compatibles con las 
reglas para nombrar variables en R. 


Normalmente las hojas iniciales de datos tienen problemas con los nombres, que deben 
ser corregidos antes de proceder a importar los datos a R. 
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Corrigiendo la base inicial para hacerla compatible con 
R. 


En el encabezado de las columnas (primera fila) se deben evitar nombres con espacios en 
blanco. Por ejemplo, si estamos analizando resultados de una competencia de atletismo, 
en vez de escribir “Salto Largo”, podemos escribir “Salto_largo” o “salto.largo”. 


Se deben evitar nombres con símbolos especiales: ?, S, *, +, 4, (,),-,/,), 4 |, >, <, etc. 
Únicamente el guión bajo y el punto pueden ser usados. 

Se debe evitar iniciar el nombre de la variable con un número, por ejemplo para el registro 
del tiempo en una carrera de 100 metros, debemos evitar “100m” y podemos usar 
“Tiempo100m” o “T100m”. 

Los nombres de las columnas deben ser únicos, no se permiten nombres duplicados. Es 
conveniente no poner nombres muy largos, porque complican la sintaxis en el momento 
del análisis (Generalmente estos nombres corresponden con el nombre de la variable). 


Hay que tener presente que: 


e Ressensible a las minúsculas y mayúsculas, lo que implica que “tiempo” es distinto 
a “Tiempo”. 


e Se debe evitar dejar filas en blanco. 

e Se debe borrar cualquier comentario. 

e Se debe reemplazar los valores faltantes por NA (Not Available). 

e Para las fechas se debe usar el formato de cuatro dígitos en los años, así se debe 


usar “01/01/2016” en vez de “01/01/16”. 


En las siguientes figuras vemos un ejemplo de nombres incorrectos y nombres correctos 
para importar los datos aR. 
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En la figura de la izquierda tenemos nombres de variables incorrectos, mientras que en la 
de la derecha se muestran nombres compatibles con R para importar los datos. 


Sin título 2...eOffice Calc -— A X Sin título 2...eOffice Calc -— A X 


Archivo Editar Ver Insertar  F.to Archivo Editar Ver Insertar F.to 


--E-[daOaixsb- >» A-8-E-[daaixeab- 
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lee poa MEN < [o |B 
Resultados Corredor T100m Salto_largo  T400_m 

VASQUEZ 37 

HERNANDEZ 34 

RUIZ 34 

VIDES 

MARTINEZ 

TOSCANO 

BURRION 

AVILA 

VELASQUEZ 


























Salto largo 400 metros 

VASQUEZ 37 
HERNANDEZ 34 
RUIZ 34 
VIDES 37 
MARTINEZ 25 
TOSCANO 32 
BURRION 
AVILA 

VELASQUEZ 
COS 
RIVERA 
TUCUBAL 
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ILLESCAS 

DIAZ 

MERIDA 


A) 
HAY | jar | 4D e | Hojas | 


Hoja 1 de 1 | | Predeterminado | Hoja 1 de 1 Predeterminado | 
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Nombres de las variables incorrectos Nombres de las variables correctos 
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5. Importando datos a R. 


Importar, dentro del mundo de la 
informática, este término se refiere 
a la inclusión de un documento o 
parte del mismo. 





— Tecnologicon 


5. |Importando datos a R, trabajando desde 
archivos. 


R es capaz de manejar varios formatos de archivos para importar los datos contenidos en 
nuestra base de datos, para evitar el tener que ingresarlos directamente desde el 
programa. 


Se pueden leer datos desde un archivo nativo de R “archivo.rda”, desde un archivo de Excel 
97-2003 “archivo.xls”, desde un archivo delimitado por comas “archivo.csv”. 


También está la posibilidad de utilizar paquetes ya hechos para importar datos. Un 
paquete (package) o librería es una colección de funciones, datos y código R que se 
almacenan en una carpeta conforme a una estructura bien definida, para que el programa 
R pueda utilizarlo con facilidad. Son como pequeños programas desarrollados en R para 
aumentar la capacidad del programa principal. En la web de R se puede consultar la lista 
de paquetes disponibles. En Enero de 2018 esta lista incluía algo más de 12000 paquetes. 
Asimismo en la sección Task Views se puede consultar una lista de paquetes ordenada 
según áreas de aplicación. 


Cuando instalamos R se incorporan por defecto numerosas librerías. Podemos ver una 
lista de las librerías que actualmente tenemos instalados en nuestro ordenador 
ejecutando: 

>library() 
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Dentro de estos paquetes o librerías, existen algunas que nos permiten importar datos 
desde otros programas como el SPSS “archivo.sav”, sin embargo como uno de los 
objetivos de este texto es hacer las cosas prácticas sin la necesidad de estar descargando 
librerías, usaremos el enfoque de exportar los datos desde el programa en que los 
tengamos a un archivo delimitado por comas “archivo.csv”, la mayoría de los programas 
pueden hacer esto y ya con el archivo csv , simplemente lo cargamos aR. 


importando datos desde un archivo csv. 


Los archivos CSV (del inglés comma-separated values) son un tipo de documento en 
formato abierto sencillo que se utilizan para representar datos en forma de tabla, en las 
que las columnas se separan por comas y las filas por saltos de línea. 


La mayoría de programas pueden guardar los datos en un formato delimitado por coma o 
csv y en R podemos leer directamente los datos de un archivo csv, sin la necesidad de 
ninguna librería. 

Lo hacemos con la función “read.csv()” 


Ejemplo: 


>datos.csv=read.csv(“nombrearchivo.csv”, header=T) 


OO Dota: datos.csv = EX O - a 








genero_|edad > View(datos.csv) 
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Visualización de los datos con el comando View() 
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importando datos desde un archivo de Excel 
5.1. La manera más sencilla. 


La manera más sencilla de importar datos desde Excel es guardar los datos desde Excel 
en formato csv delimitado por comas y luego importarlo como archivo csv desde R. 


5.2. Importar directamente de Excel, librería “gdata”. 


Es posible importar a R directamente desde un archivo de Excel, pero para esto es 
necesario el apoyo de la librería “gdata” que debe ser descargada previamente a nuestro 
programa de R. 


Para cargar la librería “gdata” en R debemos escribir los siguientes comandos: 
- install.packages(“gdata”) 
- library(gdata) 


Luego utilizamos el comando: 
datos<-read.xIs(“nombrearchivo.xls”, sheet=1) 


Hay que tomar en cuenta que sólo lee formato “xls”, es decir Excel 97-2003. 


5.3. Importar a través de Copiar y Pegar. 














[3] Sin título 1 - LibreOffice Calc _ O Xx 
Archivo Editar Wer Insertar FEormato Hoja . 
Si no se desea instalar librerías extra, podemos - -BE-4de mm 
también copiar los datos a través de copiar Y eun 11 a a » 
pegar (copy / paste). 57 ME EE 
Esto se hace marcando los datos en Excel y luego 1 uenero. e Ñ a 
los copiamos con [CTRL]+[C] . > e 20: 
Por ejemplo copiamos los datos del género y edad —¿ ;, = 
de un archivo de Excel o cualquier otra hoja ¿5 7 
electrónica. 3 En 
mi 21 
Luego cargamos los datos a un data.frame para | ¡3 o 
poder analizarlos en R, escribimos: E > 
1 ANERPENNE 3 
nombre=read.delim(“clipboard”) MS ojar pr 
Hoja 1 de 1 Predeterrr 
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Ejemplo del comando para crear el data.frame llamado 
datos3 


>datos3=read.delim(“clipboard”) 


Luego llamamos a datos3 para ver el contenido del [Al llamar a datos3, el programa nos muestra el 
data.frame contenido del data.frame 


género edad 
>datos3 21 
20 
21 
20 
19 
26 





Si deseamos calcular estadísticas con los datos recién ingresados, debemos extraerlos a 
un vector, así: 


Para extraer los datos de edad a un vector llamado | (respuestas de Ra los comandos) 
datos.edad, 


>datos.edad=c(datos3Sedad) 


>datos.edad [1121 2021 20 19 26 30 30 28 21 28 29 24 
21 30 23 


Así podemos, por ejemplo, calcular la media 
aritmética; 


>mean(datos.edad) 


[1] 24.4375 
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importando datos desde un archivo TXT. 


Para importar datos desde un archivo TXT, un archivo de texto separado por comas, punto 
y coma o por tabulaciones, podemos usar el comando: 


“read.delim()” o “read.table()” 
Lo importante es usar el argumento “sep” que indica el separador empleado. 


En el caso que tengamos el archivo “datos.txt” con los datos separados por tabulaciones, 
empleamos: 


datos=read.delim(“datos.txt”, header=TRUE, sep="t”) 


Para los distintos separadores usamos: 
Para tabulaciones empleamos: “Mt” 


“” 


Para comas empleamos: , 


Para punto y coma empleamos: “; 
Etc. 
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6. Archivos de salidas. 


Archivos donde guardamos 
información contenida en la 
memoria de la computadora. 





6. Archivos de salidas. 


Guardando Gráficas 


Para guardar las gráficas producidas en R, podemos utilizar varios formatos, dentro de los 
que están: como imagen jpg o como archivo pdf. 


Archivo gráfico jpg . jpg() 


m2” 4,1, 


Teniendo dos series de datos “x” y “y”: 
> x=rnorm(50,40,10) * puede consultar la sección Generación de 
> y=rnorm(70,50, 5) datos, pag.38 


- Primero especificamos el formato de gráfico jpg con el comando “jpg(” . 
Dentro de los paréntesis especificamos el nombre del archivo, en este caso “Graf01.jpg” 


- Luego damos el comando de gráfica, en este caso una gráfica de caja y bigotes para 
ambas series. 


- Por último cerramos el dispositivo gráfico, a través del comando “dev.off()” 
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> jpeg(filename="Graf01.jpg") 
> boxplot(x,y) 

> dev.off() 

>null device 











Algunos argumentos para modificar el gráfico. 


jpeg(filename="Grafico3.jpeg”), *+Nombre y extensión 
width = 33, FHAnchura 
height= 19, HAltura 
res = 72 , Resolución 72 ppi es un estándar 
units ="cm”, *+Unidades 

plot(df$x,df$y) *Gráfico 

dev.off() Cierre del archivo 





Archivo PDF, pdf(). 


Podemos guardar nuestro gráfico como un archivo PDF, a través del comando pdf(), de la 
misma manera que se guarda un gráfico jpg. 


4. 99 4, 9 


Para los mismos datos “x” y “y” trabajados anteriormente. 


pdfí(file="Graf02.pdf") >null device 


boxplot(x,y) 
dev.off() 





Archivo de salidas “archivo.txt” y archivo nativo de R, 
“archivo.rda” 


R genera diversos tipos de resultados: datos, tablas, gráficos, etc. existen varias opciones 
para guardar estos resultados dependiendo de lo que queremos realizar después con los 
resultados. 
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6.1. Para guardar información NO gráfica en un fichero de 
texto. 


En ocasiones sólo queremos salvar los resultados no gráficos, que produce R y que 
generalmente observamos en la pantalla. 


La manera más sencilla es con “copiar y pegar”. 
Marcamos los resultados que nos interesan con el mouse. 


Si estamos trabajando en windows los copiamos con [CTRL] + [C] y luego los pegamos en 
nuestro procesador de textos con [CTRL]+[V] 


En Linux para copiar desde la consola de comandos no se utiliza [CTRL] + [Cl]. 


Al marcar el texto automáticamente se copia en la memoria, así que después de marcar el 
texto, nos ubicamos en nuestro procesador de textos y oprimimos el botón central en el 
mouse (en la mayoría de los mouse modernos es la rueda de desplazamiento entre los dos 
botones) esto es el equivalente del [CTRL]+[V] y los resultados que nos interesan se pegan 
en nuestro procesador de textos. 


Otra forma es redireccionar la salida de la pantalla a un archivo de texto. 


En ese caso utilizaremos las función sink , especificando un archivo de texto donde se 
guardarán los resultados obtenidos. 


Primero comprobamos cuál es el directorio de trabajo (working directory o wd): 


Es posible cambiar el directorio de trabajo (working directory o wd) con la función setwd() 


setwd(“home/R”) > [1] "/home/R" 


getwd() 





Con la función sink hacemos que la salida de R sea el fichero de texto que indiquemos: 
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sink("resultados.txt") 
a <- c(1, 2, 3, 5) 


summary(a) 
print(a) 





Si ya hemos terminado de guardar resultados, redirigimos la salida a la pantalla (como 
estaba al principio). 


>[111235 





En el archivo “resultados.txt” tendremos: 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.00 1.75 2.50 2.75 3.50 5.00 


(111235 





Al utilizar este método lamentablemente no tenemos retroalimentación con respecto a los 
datos que se están guardando en el momento de estar trabajando en R, por lo que este 
método podría ser más útil dentro de un programa o proceso automatizado. 
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6.2. Guardando una base de datos (data.frame o matrix) 


Tras generar una base de datos (data.frame o matrix) es posible guardar ese objeto 
específico para que podamos utilizarlo en sesiones subsecuentes o para archivarlo como 
referencia. 


Esto podemos hacerlo con varias funciones como write.table, write.csv o write.matrix: 
Así, para los datos: 


talla <- c(150, 156, 166, 175, 175) > talla peso provincia 
peso <- c(75, 70, 72, 80, 55) >1 150 75 Alicante 
provincia <-  c('Alicante",  "Castellon",|>2 2156 70 Castellon 
"Valencia", "Valencia", "Alicante") >3 166 


72 Valencia 
>4 175 80 Valencia 
>5 175 55 Alicante 


datos <- data.frame(talla, peso, provincia) 
datos Hnos da el contenido del data.frame 





Para guardar este data.frame en un archivo de texto, escribimos: 


write.table(datos, "misdatos.txt", sep = "Mt", quote = F, row.names = F) 


6.3. Guardar los objetos generados en la sesión de R en un 
fichero .rda 


Con las funciones save y save.image es posible guardar todos o algunos objetos 
generados en la sesión de R. 


Esto nos permite guardar nuestro trabajo, matrices y/o vectores para futuros análisis o 
cuando el análisis se hace en varias sesiones. 


Para volver a cargar la información en una sesión subsecuente utilizamos la función 
load(). 


Por ejemplo, si tenemos: 


talla <- c(150, 156, 166, 175, 175) > talla peso provincia 
peso <- c(75, 70, 72, 80, 55) >1 150 75 Alicante 
provincia <- c("Alicante", "Castellon",|>2 156 70 Castellon 
"Valencia", "Valencia", "Alicante") >3 166 72 Valencia 


datos <- data.frame(talla, peso, |>4 175 80 Valencia 
provincia) >5 175 55 Alicante 


datos + visualizamos el contenido de “datos” 
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Y tenemos también: 


datos2 <- datosl, 1:2] $> talla peso 
F*>1 150 75 
head(datos2) + Visualiza las primeras 6 líneas | *>2 156 70 
H>3 166 72 


*+>4 175 80 
H+>5 175 55 





Verificamos que objetos tenemos en la memoria con el comando Is() 


>[1]"datos" "datos2" "peso" "provincia" “talla" 





Para guardar todos los objetos en un único fichero específico de R, escribimos: 
save.image(file = "resultados.rda") 


Para cargar todos los objetos en una sesión posterior de R, escribimos: 
load('resultados.rda") 


Demostración. 


Inmediatamente después de crear el archivo 
“resultados.rda” cerramos la sesión de R, con q() y > aq() 


cerramos la ventana de comandos. Save workspace image? [y/n/c]: n 


Reiniciamos R, desde la ventana de comandos. piEusuario:— $ R 


Verificamos que la memoria no contiene objetos. > Is() 
character(0) 


Cargamos el archivo guardado anteriormente, > load("resultados.rda") 


Al verificar la memoria vemos que ahora están > Is() 
disponibles los objetos que habíamos guardado [1] "datos" "datos2" "peso" 


anteriormente. "provincia" "talla" 





"Si sólo queremos guardar alguno o algunos objetos, se puede salvar con la función save: 
save(datos, datos2, file = "resultados2.rda") 
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7. Generación de datos 
datos desde el teclado. 





Un dato es una representación 
simbólica (numérica, alfabética, 
algorítmica, espacial, etc.) de un 
atributo o variable cuantitativa o 
cualitativa. 





— WikiP 


7. Generación de datos y datos desde el teclado. 


Para generar una serie de números aleatorios con 
distribución normal. 


Una función muy útil cuando estamos utilizando datos para ejercicios o para practicar el 
análisis de los mismos, es la generación de números aleatorios que presenten un 
comportamiento normal. 
Esto lo hacemos con el comando: 
rnorm(n, mean=0, sd=1) 

- donde “n” va a ser el número de datos a generar. 

- mean= aquí colocamos la media aritmética de la serie de datos. 

- sd= aquí colocamos la desviación estándar de la serie de datos. 


Ejemplo: Para generar una serie de 80 datos con una media de 50 y una desviación 
estándar de 15, escribimos: 


datos4=rnorm(80,mean=50, sd=15) 
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Histogram of datos4 





datos4=rnorm(80,mean=50, sd=15) 


También podemos escribir: 


Frequency 














datos4=rnorm(80,50,15) 




















Podemos revisar el comportamiento general del grupo con un histograma o podemos 
revisar los datos directamente a través del comando “View(datos4)” . 


Para un número moderado de datos puede resultar más útil el empleo de un diagrama de 
tallo y hojas con: 
stem(datos4) 


stem(datos4) he decimal point is 1 digit(s) to the right of the | 
| 

| 0225688 

| 333445566779 

| 001122334557778888999 

| 011112234567778899 
| 0111233567799 
| 01123679 
13 





7 
1 
2 
3 
4 
5 
6 
7 
8 


Para generar una serie de números aleatorios con 
distribución uniforme. 


Para generar una distribución uniforme de datos utilizamos: runif() 
La sintaxis es: 
runif('n datos”, “Li”, “Ls”) 


Donde: “n datos” = número de datos a generar. 
“Li” = Límite inferior de la serie de datos. 
"LP = Límite superior de la serie de datos. 
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Ejemplo: 
Para generar 100 datos de distribución uniforme contenidos entre 3 y 5 escribimos: 
r<-runif(100,3,5) 


> r<-runif(100,3,5) 





> ste m ( r) Histogram of r 


The decimal point is 1 digit(s) to the left of the 








30 | 93348 
32 | 07123479 

34 | 027789113379 

36 | 02699556699 

38 | 1344567991244478 
40| 012 

42 | 123681477778 

44 | 166015678 

46 | 4402334449 

48 | 2356789124568 
50|0 


Frequency 















































Para generar una serie de números aleatorios con 
distribución exponencial. 


Para generar una distribución exponencial de datos utilizamos: rexp() 
La sintaxis es: 


rexp(“n datos”,“Ls”) 


Donde: “n datos” = número de datos a generar. 
"Ls" = Límite superior de la serie de datos. 


Ejemplo: Para generar 50 datos de distribución exponencial contenidos entre O y 0.8 
escribimos: 
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> d =rex p ( 5 0 , 8 ) RR Graphics: Device 2 (ACTIVE) 
> ste m ( d ) Histogram of d 





The decimal point is 1 digit(s) to the left of 
the | 


0 | 1112222233444445555556778888 
1 | 0011145588999 

2 | 0444666 

3|4 
4 | 
5 | 
6 | 


Frequency 



































9 














Podemos transformar los resultados a través de operaciones aritméticas, así por ejemplo 
si deseamos trabajar con números enteros, multiplicamos los resultados contenidos en “d” 
por 100 y eliminamos los decimales a través de la función “as.integer()” 





> d.entero=as.integer(d*100) 


Histogram of d.entero 





> head(d.entero) 
[1] 1640 418 


Frequency 
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Ingresando datos desde el teclado. 


7.1. A través de la creación de un vector. 


Para pocos datos podemos ingresar un vector de datos, escribiendo directamente los 
datos separados por coma. 


Ejemplo: 
a=c(1,2,3,4,5,6,7,8,9,10) 


7.2. A través del comando scan() 


Una manera más sencilla, cuando se maneja un número medio de datos, es a través del 
comando scan(), el cual nos permite ingresar los datos de uno en uno, directamente desde 
el teclado numérico, oprimiendo [Enter] después de cada número. 


Los datos dejan de cargarse al presionar [Enter] sin haber digitado ningún dato. 


Ejemplo: 


>b=c(scan()) [1] 20 21 22 23 24 25 
: > 


1 
2 
3: 
4: 
5 
6 


7: 
Read 6 ¡items 


>b Hvisualiza el contenido de b 
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7.3. Cargando datos agrupados 


Cuando los datos de un ejercicio están presentados a través de datos agrupados y para no 
introducir individualmente cada uno de los datos podemos usar el modificador “rep”. 


Ejemplo: Para cargar los datos del cuadro 


Intervalos Xx f 
4 - 4.9 4.45 3 
5= 5,9 5.45 102 
6- 6.9 6.45 225 
7=- 7.9 7.45 219 
8 -— 8.9 8.45 100 
9 - 9.9 9.45 1 
650 


Usamos la marca de clase “x” y la frecuencia, colocando el modificador “rep” frente a los 


«” 


paréntesis donde ubicamos la marca de clase ”' y la frecuencia; 


rep(“marca de clase”, “frecuencia”) 


cuadro=c(rep(4.45,3),rep(5.45,102),rep(6.45,225),rep(7.45,219),rep(8.45,100),rep(9.45,1)) 


De esta forma cargamos 650 datos y podemos analizarlo de manera sencilla. Un resumen 
del cuadro lo podemos obtener con el comando “table()” 


table(cuadro) 


> table(cuadro) 4,45 5.45 6.45 7,45 8.45 9.45 
cuadro 3 102 225 219 100 1 


Un resumen de los datos lo obtenemos con el comando: 


summary ( ) 


> summary(cuadro) Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.450 6.450 6.450 6.933 7.450 9.450 
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Hay que tomar en cuenta que al utilizar las marcas de clase y no los verdaderos datos la 
mediana es un resultado aproximado y es necesario calcularla de la manera tradicional 
con los datos del cuadro y la fórmula: 


Md=Li + (f/j) (Ui — Li) 


Cargando datos agrupados usando dos vectores 


Otra manera más eficiente de cargar el cuadro, es a través de dos vectores, uno con las 
marcas de clase y el otro con las frecuencias, de la siguiente manera: 


>marca=C(4.45,5.45,6.45,7.45,8.45,9.45) 


>frec=c(3,102,225,219,190,1) 





Luego lo integramos en un vector llamado cuadro1 


>cuadrol=c(rep(marca,frec)) cuadro1 
4.45 5.45 6.45 7.45 8.45 9.45 


> table(cuadrol) Hnos muestra un cuadro con las 3 102 225 219 100 1 


marcas de clase y sus frecuencias > 
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ETE Te AM 
frames. 


Los data frames son estructuras de 
datos de dos dimensiones 
(rectangulares) que pueden 
contener datos de diferentes tipos, 
por lo tanto, son heterogéneas. 





—R 


8. Trabajando con data.frames . 


Explorando un data.frame 


Una vez importados los datos a un data.frame, como por ejemplo en “iris” que se incluye 
en el paquete base de R, podemos revisar su contenido de varias formas, y podemos 
extraer los valores de una variable en particular para el análisis de los datos. 


































































































O Data: iris -OXBO- ae 
Sepal, Length [Sepal, Width[Petal, Length |Petal, Width [Species > Vien(iris) 
11 > 35 £ 0. setosa 
2 |4,9 3,0 A 0,2 ¡setosa 
3 14,7 3,2 .3 0,2 setosa 
- 4 [4,6 3,1 5 0,2 setosa 
8.1. View() 5 15,0 3,6 1,4 0,2 setosa 
6 |5, 3,9 el 0,4 setosa 
2 a a 714,6 3,4 A 0,3 setosa 
Nos permite visualizar los datos en una 5; ECO CO A 
's á z no. 9 |4 29 A 0,2 setosa 
ventana, similar a una hoja electrónica. 10 4.9 81 5 01 setosa 
1 [5 3,7 1,5 0,2 setosa 
12 [4,8 3,4 ¿6 0,2 setosa 
5 . 13 [4,8 3,0 1,4 0,1 setosa 
Esto nos permite determinar el nombre de 163 En . 0 — patos 
le te . setosa 
las variables, el tipo de las mismas, etc. 1667 fee |i5 [ne fetos 
17 [5,4 3,9 .3 0,4 setosa 
18 [5,1 3,5 A 0,3 setosa 
19 [5,7 3,8 al 0.3 setosa 
20 |5,1 3,8 .5 0,3 setosa 
21 [5,4 3,4 1,7 0,2 setosa 
22 |5,1 3,7 25 0,4 setosa 
23 14,6 3,6 .0 0,2 setosa 
24 [5,1 3,3 1,7 0.5 setosa 
25 14,8 3,4 .9 0,2 setosa 



































Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 45 


8.2. head() 
Nos presenta las primeras 6 filas de la base de datos. 


> head(iris) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
.1 ] 1.4 O. setosa 


setosa 


setosa 
setosa 
setosa 
setosa 





8.3. tail() 
Nos presenta las 6 últimas filas de la base de datos. 


> tail(iris) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 

a virginica 

virginica 

virginica 

virginica 

virginica 

virginica 





8.4. names() 
Nos da los nombres de las variables. 


> names(iris) 
[1] "Sepal.Length" "Sepal .Width" "Petal.Length" "Petal .Width" 


"Species" 
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Extracción de una variable conociendo el nombre. 
(Extracción de un vector) 


Para extraer la longitud del pétalo a un vector llamado “longitud.petalo”, debemos saber 
que el nombre de la variable es “Petal.Width”. 
El comando es: 

“vector” = “base”S$"nombre de la variable” 


longitud.petalo=irisSPetal.Width 


> summary(longitud.petalo) Min. 1lst Qu. Median Mean 3rd Qu. Max. 


0.100 0.300 1.300 1.199 1.800 2.5008 





Si descargamos el paquete “fBasics” y lo cargamos a la memoria. 


>install.packages(fBasics) 


>library(fBasics) 





Tenemos el comando “basicStats” que nos da un resumen completo con todas las 
estadísticas descriptivas de uso general en un solo comando. 


Así: 
>basicStats(longitud.petalo) longitud .petalo 
nobs 150.000000 
NAs .000000 
Minimum .100000 
Maximum .500000 
1. Quartile .300000 
3. Quartile .800000 
Mean .199333 
Median .300000 
Sum .900000 
SE Mean .062236 
LCL Mean .076353 
UCL Mean .322313 
Variance .581006 
Stdev .762238 
Skewness .100917 
Kurtosis .358179 


=i 
N 
2000--200-22-2=20N00 
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Combinación de dos vectores en un data.frame 


En algunos casos, es preferible combinar dos vectores en un data.frame para facilitar la 
aplicación de algunas pruebas estadísticas. 


Para combinar los vectores “peso” y “long” en un data.frame llamado dat1 lo hacemos a 
través del comando: 


>datl = data.frame(peso,long) 


Extracción de un vector de un data.frame en base a uno 
o más factores. 


En muchas ocasiones, nos interesa el análisis de un vector en base a un factor, como por 
ejemplo “el análisis de las calificaciones de los alumnos en base a un curso en particular” 
o “resultado de concentración de calcio en sangre en base a un medicamento para la 
osteoporosis” o “la longitud del fémur dependiendo de una especie particular de ratones”. 


Para poder explorar las maneras en que podemos extraer estos vectores en particular, 
debemos preparar previamente un data.frame para que nos sirva de ejemplo. 


Elaborando un data.frame de ejemplo. 
Vamos a elaborar un data.frame llamado “Datos”, con la combinación de dos vectores: 
O Un vector llamado “grupo”, con 30 datos de cada uno de los grupos “A”, “B”, “C”. 


O Un vector llamado “valor”, con 90 valores aleatorios con distribución normal con una 
media de 60 y desviación estándar de 10, asi: 


> grupo=c(rep("A",30),rep("B",30),rep("C",30)) 


> valor=rnorm(909,mean=60,sd=10) 
> Datos=data.frame(grupo, valor) 





Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 48 


Haciendo una exploración del data.frame “Datos”, tenemos: 


> head(Datos) 





Podemos obtener estadísticas de cada grupo a través del comando tapply() 


>tapply(datos$valor,datos$grupo,mean) B C 
58.75425 59.11764 59 .80312 


> tapply(datoss$valor,datos$grupo,sd) A B C 
4.874735 4.178205 5.017734 





Podemos ver una descripción estadística general del grupo con el comando summary() 


> summary(Datos) 
valor 
Min. 144, 
1st Qu. :54. 
Median :61. 


Mean :61. 
3rd Qu.:68. 
Max. :83. 





Ahora bien, si nos interesa un análisis más completo del comportamiento individual de 
cada grupo (A, B y C), la manera más sencilla de obtenerlo es extrayendo un vector por 
cada grupo. 


Extracción de un vector dependiendo del valor de un 
factor. 


Con nuestro data.frame de ejemplo creado en la sección anterior, deseamos generar todas 
las estadísticas descriptivas de la variable “valor” para el grupo A, el grupo B y el grupo C 
de manera individual. 
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Para hacer esto extraemos en un vector los valores de la variable “valor” dependiendo del 
valor de la variable “grupo”, de la siguiente manera: 


> grupo.a=subset(Datos$valor,Datostgrupo=="A") 


> grupo.b=subset(Datoss$valor,Datos$sgrupo=="B") 
> grupo.c=subset(Datos$valor,Datos$grupo=="C") 





Esto crea un vector llamado grupo.a, con los datos de la variable “valor” cuando el grupo 
tiene un valor de A. Un vector llamado grupo.b con los datos de la variable “valor” cuando 
el grupo tiene un valor de B y un vector llamado grupo.c con los datos de la variable “valor” 
cuando el grupo tiene un valor de C. 


Podemos correr todas las estadísticas descriptivas para cada vector con el comando 
basicStats(), de la librería fBasics. (Ver “Instalación de librerías”, pág.19 y “Descripción de 
grupos. Estadística descriptiva, basicStats.”, pág.59) 


Imaginemos que ya hemos instalado el paquete fBasics. (esto se hace con 
install. packages(fBasics), pág 19) 


Cargamos la librería a memoria a través de: 


library(fBasics) 


y luego corremos el comando basicStats() para cada vector recién creado, así: 


> basicStats(grupo.a) > basicStats(grupo.b) > basicStats(grupo.c) 
grupo.a grupo.b grupo.c 
nobs .000000 nobs .000000 nobs .000000 
NAs .000000 NAs .000000 NAs .000000 
Minimum .379598 Minimum .516922 Minimum .947641 
Maximum .658958 Maximum .596123 Maximum .980376 
1. Quartile .653246 1. Quartile .435376 1. Quartile .924631 
3. Quartile .205649 3. Quartile .974341 3. Quartile .858262 
.754247 Mean .117644 .803119 
.609270 Median .362263 j .537962 
.627423 .529325 .093582 
.890001 .762832 .916109 
.933992 .557477 .929467 
.574503 UCL Mean .677811 .676772 
Variance .763040 Variance .457394 Variance .177657 
Stdev .874735 Stdev .178205 Stdev .017734 
Skewness .158603 Skewness .376071 Skewness .086737 
Kurtosis .453643 Kurtosis .047607 Kurtosis .850644 
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Extracción de un vector dependiendo del valor de dos 
factores. 
Imaginemos que tenemos un data.frame, con varios niveles. Y nos interesa hacer un doble 


filtrado, es decir extraer los valores de una variable dependiendo del resultado de otras 
dos. 


Vamos a utilizar un data.frame hipotético llamado “datosmr”, el cual tiene la siguiente 
estructura; 


> str(datosmr) 
'data.frame': 188 obs. of 4 variables: 
S zona : Factor w/ 5 levels "A","B","C","D",..: 1111112222... 


S forma : Factor w/ 2 levels "cuad","rect": 1111111... 
S edad : Factor w/ 3 levels "g","m","p": 333333... 
S conteo: num 07337310176... 





Es un data.frame con 180 observaciones de 4 variables: zona, forma, edad y conteo. 


Donde conteo es la única variable numérica mientras que el resto son nominales con los 
valores que se presentan en el esquema anterior (para forma los valores posibles son 
“cuad” y “rect”) 


Haciendo una exploración general con el comando summary(), obtenemos: 


> summary(datosmr) forma edad conteo 
cuad:98 g:60 Min. 
rect:90 m:60 1st Qu.: 


0. 
0. 
p:60 Median 1. 
Mean 4. 
3rd Qu.: 3. 
Max. 147. 





Vemos que hay 90 valores de forma="cuad” . Tenemos también valores de conteo y edad. 


Ahora bien, si deseamos saber cuales son las estadísticas descriptivas para “conteo” 


cuando el factor “edad”="p” y “forma”="cuad” , podemos hacer un doble filtrado. 


”n_9 


Vaciando primero nuestros datos a un data.frame donde “forma 
un segundo data.frame con “edad”="p”. 


cuad” y luego filtrando 
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1. Primero creamos un nuevo data.frame que se llame “cuad”, a través del comando: 


> cuad=subset(datosmr,forma=="cuad") 


forma edad conteo 
Hverificamos el sumario de “cuad” ] cuad:9%  g:38 Min. : 0.000 
rect: O m:30 1Tst Qu.: 0.000 
> summary(cuad) ; p:38  Median : 0.000 
Mean : 3.556 
3rd Qu.: 3.000 
Max. :36.000v 





Vemos que ahora nuestro data.frame “cuad” sólo contiene los 90 valores donde 
“forma=cuad”. Podemos sacar un resumen de frecuencias para cada valor de edad con el 
comando: table() 


> table(cuad$conteo,cuad$edad) 


n3 


000000000 —u0gag 
O0oO0O0O0O0O0O0O0O0O-00000-NaOAO 
2222323N20=200=0=NNN"N 





Sin embargo si nos interesan estadísticas más exhaustivas, debemos de hacer un filtrado 
más para cada valor de edad, de la siguiente manera: 


> cuad.p=subset(cuad,edad=="p") conteo 


> summary(cuad.p) : st 3 o 
: Ss u.: . 


Median : 8.500 


Mean : 9.533 
3rd Qu.:13.500 
Max. :36.000 
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Esto nos permite correr comandos como stem() o hist() que son para un vector. 


> stem(cuad.p$conteo) The decimal point is 1 digit(s) to 
the right of the | 


| 00112333334 
| 6777 
| 00899924 
| 5567 
| 0 

| 

| 

| 


1 
6 


W0UNN=00 


> hist(cuad.p$conteo) 


Histogram of cuad.p$conteo 


El comando completo para salvar la gráfica es: 


> jpegí(filename="hist.jpg") 
> hist(cuad.p$conteo) 
> dev.off() 





Frequency 























T 
20 


cuad.p$conteo 
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9. Descripción de grupos. 





Estadística descriptiva: Se dedica a 
la descripción, visualización y 
resumen de datos originados a 
partir de los fenómenos de estudio. 





— WikiP 


9. Descripción de grupos. Estadística descriptiva. 


Descripción de grupos, ¿Por donde empezar? 


De igual manera que antes de iniciar un análisis de datos, debemos preparar la base de 
datos para poder ser analizada (“4.Preparando la base de datos”, pág.22), antes de poder 
correr pruebas de diferencia o correlación, debemos describir de manera general al grupo. 


Antes de poder correr pruebas de diferencia o correlación, 


debemos describir de manera general al grupo. 





Esto abarca la elaboración de cuadros y gráficas, distribuciones de frecuencias, etc. 


Lo primero que debemos hacer: 
O Iniciar con un recuento de datos. 
O Elaboración de distribuciones de frecuencias. 
O Diagramas de tallo y hojas. 
O Gráficas como el diagrama de barras o histogramas. 


Si solo nombramos nuestra base de datos o data.frame, nos listará todos y cada uno de 
los datos. Esto no es problema si son 50 datos como en este caso, pero podría ser 
realmente complicado si la base es muy voluminosa, unos 25,000 casos o más, para esto 
es conveniente emplear los comandos head() y tail(). 
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head() y tail() 


Por esto es conveniente iniciar por los comandos head() y tail(). El comando head() nos 
muestra las primeras 6 filas del inicio y el comando tail() las 6 últimas filas. 


> head(cars) speed dist 
2 
10 
4 
22 
16 


> tail(cars) speed dist 
23 
24 
24 
24 
24 
25 





Esto nos indica que estamos trabajando con variables numéricas, “speed” y “dist” 
Al analizar de igual manera la base “mtcars” (incluida en el R base), encontramos: 


> head(mtcars) 
mpg cyl disp qsec vs am gear carb 

Mazda RX4 21.. 160 ] ; 16.46 0 1 

Mazda RX4 Wag 21, 160 ] ; 17.02 

Datsun 710 22. 108 z a 18.61 

Hornet 4 Drive 21. 258 : . 19,44 

Hornet Sportabout 18. 360 : ; 17.02 

Valiant 18. ] : 20.22 


> tail(mtcars) 


mpg cy j qsec vs am gear 
Porsche 914-2 26. : : y 16. 1 
Lotus Europa 30. e : ; 16. 
Ford Pantera L 15. , 7 4 14. 
Ferrari Dino 19. ] , : 15. 
Maserati Bora 15. . , : 14, 
Volvo 142E 21 . ; ; 18. 
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table() 


Un recuento general de los datos lo podemos hacer con el comando table(). 
Esto produce un listado con los valores en la primera fila y sus frecuencias en la segunda. 
En el caso de que estemos trabajando una variable categórica, el recuento es muy útil. 


Como por ejemplo si usamos la base “mtcars” y resumimos los resultados por número de 
cilindros, así: 


> table(mtcars$cyl) 4 6 8 
11 714 


Esto nos indica que en la categoría de 4 cilindros tenemos una frecuencia de 11, en la de 6 
cilindros una frecuencia de 7 y en la categoría de 8 una frecuencia de 14 


Lo que ya nos permite elaborar un cuadro de datos. 


Cilindros frec 
4 11 
6 7 
8 14 
32 


Podemos de igual manera calcular los porcentajes por variable a través de: 


table(baseSvariable) / length(baseS variable) 


> table(mtcars$cyl)/length(mtcars$cyl) 4 6 8 


0.34375 0.21875 0.43750 
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Esto nos permite complementar nuestro cuadro: 


Cilindros frec Ús % 
4 11 0.34375 34.375 
6 Fi 0.21875 21.875 
8 14 0.43750 43.750 

32 1 100 


Sin embargo, si utilizamos el comando table() con la base “cars” y la variable “speed” 
obtenemos lo siguiente: 


> table(cars$speed) 


4 7 8 9108 11 12 13 1 
2 2 1 1 


0 
3 


1 12 13 14 
2 4 4 4 





Como podemos observar, el recuento no nos ayuda mucho en este caso, por ser una 
variable cuantitativa. 


Para estos casos es más práctico utilizar el comando stem() que nos produce un diagrama 
de tallo y hojas. 
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stem() 


El comando stem(), produce un diagrama de tallo y hojas, que resulta particularmente útil 
para la elaboración de distribuciones de frecuencias. 


stem(base$variable) 


> stem(cars$speed) The decimal point is at the | 


| 08 
| 00 

| 00 

| 00090 

| 000000 
| 000000 
| 

| 

| 

| 

| 


00000 
0000000 
00000 
90 
00000 





d.. 320 2 
0 768 2 
a.= 9,9 2 
19:= 11.9 9) 
12. 13,3 8 
14 - 15.9 7 
18: "179 ) 
18. = 19,9 2 
29 =21,9 5 
22 = 2849 2 
ZA: = 20.3 e) 
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basicStats 

Una de las maneras más sencillas de producir las estadísticas descriptivas de un grupo es 
con el comando “basicStats” del paquete “fBasics”. 

Para poder utilizar este comando, es necesario instalar el paquete “fBasics” 


>install.packages(fBasics) 


Puede revisarse la sección “Instalación de Librerías”, pág.19. 


Una vez instalado el paquete, cargamos la librería: 


>library(fBasics) Rmetrics Package fBasics 
Loading required package: timeDate Analysing Markets and calculating Basic 


Loading required package: timeSeries Statistics 
Copyright (Cc) 2005-2014 Rmetrics 


Association Zurich 
Educational Software for Financial 


Engineering and Computational Science 
Rmetrics is free software and comes 


with ABSOLUTELY NO WARRANTY. 
https: //ww.rmetrics.org --- Mail to: 


info0rmetrics.org 


> 





Ya cargada la librería, podemos utilizar el comando “basicStats” para obtener un resumen 
completo de las estadísticas descriptivas. 


El comando “basicStats” corre el análisis en un vector. Por lo que si tenemos un 
data.frame, debemos extraer la variable a analizar a un vector para poder correrlo. (Ver . 
“Extracción de una variable conociendo el nombre de la misma. (Extracción de un 
vector)”, página 47) 


Ejemplo: 


Vamos a utilizar la data.frame “cars” incluida en r base, para que puedan correrse los 
comandos presentados en los ejemplos. 


Este data.frame incluye las variables “speed” y “dist” . 


Como ya se mencionó anteriormente podemos hacer una exploración general del 
data.frame “cars”, utilizando los comandos View(), head() y tail(. 
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> head(cars) speed dist 
2 

10 

4 

22 

16 

10 


> tail(cars) speed dist 
23 54 
24 70 
24 92 
24 93 
24 120 
25 85 





Aplicamos el comando: 
basicStats(baseSvariable) 


> basicStats(cars$speed) X..cars.speed 
nobs 50.000000 


NAs 0.000000 
Minimum 4.000000 
Maximum 25.000000 
1. Quartile 12.000000 
3. Quartile 19.000000 
Mean 15.400000 
Median 15.000000 
Sum 770.000000 
SE Mean 0.747786 
LCL Mean 13.897268 
UCL Mean 16.902732 
Variance 27.959184 
Stdev 5.287644 
Skewness -0.110553 
Kurtosis -0.673092 





En el siguiente cuadro se presentan las salidas del comando basicStats() y la traducción al 
español de cada una de las líneas que presenta. 
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nobs 

NAs 

Minimum 
Maximum 

1. Quartile 
3. Quartile 
Mean 

Median 

Sum 

SE Mean 

LCL Mean 
UCL Mean 
Variance 
Stdev 
Skewness 
Kurtosis 


.000000 
.000000 
.000000 
.000000 
.000000 
.000000 
.400000 
.000000 
.000000 
.747786 
.897268 
.902732 
.959184 
.287644 
.110553 
.673092 


nobs 

NAs 

Minimum 
Maximum 

1. Quartile 
3. Quartile 
Mean 

Median 

Sum 

SE Mean 

LCL Mean 
UCL Mean 
Variance 
Stdev 
Skewness 
Kurtosis 


n de observaciones 

n de datos que no aplica 

mínimo 

máximo 

primer cuartil 

tercer cuartil 

media aritmética 

mediana 

sumatoria de datos 
error estándar de la media 
Interva. de Confi. inf. 
Interva. de Confi. sup. 

varianza 

desviación estándar 

sesgo 

curtósis 





Es conveniente recordar que los límites para el sesgo y la curtosis son dos veces el error 
estándar del sesgo(ses) y dos veces el error estándar de la curtosis (sek) respectivamente. 
Y que un grupo que es simétrico y mesocúrtico se considera aproximadamente normal. 


Las fórmulas para el ses y el sek son respectivamente: ses=v6/n y sek=v24/n 


Para el presente ejemplo: 


Los límites para el sesgo serían: 2(V6/50) = 2*(6/50)*0.5 = 0.6928203 


Y los límites para la curtosis serían: 2(424/50) = 2*(24/50)*0.5 = 0.6928203 = 1.385641 


Por lo que el grupo puede considerarse normal. 


Los límites para la curtosis también pueden calcularse multiplicando el ses por 4 es decir: 


4(V6/50) = 4*(6/50)*0.5 = 1.385641 
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Cálculo individual de estadísticas descriptivas 


Si se desean calcular las estadísticas descriptivas de manera individual, ya sea para 
cálculos individuales o para un ejercicio específico, podemos obtenerlas a través de los 
siguientes comandos. 


Siendo “d” los siguientes valores: d=c(12,8,15,17,13,20,20) 


1. Media aritmética, mean() 
>mean(d) 
[11 15 


2. Mediana , median() 
>median(d) 
[11 15 


3. Moda. 

No existe ninguna función que nos brinde la moda de manera directa, podemos encontrar 
una función “Mode” para su cálculo en el paquete “prettyR” , pero no es imprescindible. 
Tomando en cuenta que la moda es el punto en la escala de medición donde se ubica la 
mayor frecuencia, solo debemos determinar la frecuencia de los datos para poder estimar 
la moda. 

Una forma sencilla de hacer esto es con listar las frecuencias a través del comando table() 


> table(d) 

d 

8 12 13 15 17 20 
11.11.11 2 


Con esto podemos observar que la máxima frecuencia se encuentra en el valor 20, por lo 
que la moda es 20. 


4. Varianza, var() 
> var(d) 
[1] 19.33333 


5. Desviación estándar, sd() 
> sd(d) 
[1] 4.396969 


6. Sesgo , Skewness() y curtosis , kurtosis() - a través de la librería “fBasics” 


Para poder usar el sesgo y la curtosis sin tener que hacer los cálculos, podemos instalar el 
paquete “fBasics” y cargar la librería “fBasics”. 
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Puede revisarse la sección “Instalación de Librerías”, pág.19. 


>library(fBasics) Rmetrics Package fBasics 
Loading required package: timeDate Analysing Markets and calculating Basic 


Loading required package: timeSeries Statistics 
Copyright (Cc) 2005-2014 Rmetrics 


Association Zurich 
Educational Software for Financial 


Engineering and Computational Science 
Rmetrics is free software and comes 
with ABSOLUTELY NO WARRANTY. 


https: //www.rmetrics.org --- Mail to: 
infoOrmetrics.org 


> 





Una vez cargada la librería, ya podemos correr los comandos para el sesgo y la curtosis 


> skewness(d) 
[1] -0.2016615 
attr(,"method") 
[1] "moment" 


> kurtosis(d) 

[1] -1.561406 

attr(,"method") 

[1] "excess" 

Los límites para el sesgo y la curtosis se pueden estimar con : 

Límites para el sesgo es 2 veces el ses. El ses=4(6/n) 

Límites para la curtosis es 2 veces el sek. El sek=4(24/n). 

También podemos estimar los límites para el sesgo, al multiplicar el ses por 4, es decir 4 


veces el ses. 


El número de elementos en el vector lo podemos determinar a través de la función length(). 
De esta forma calculamos el ses y estimamos los límites, así: 


> ses=sqrt(6/length(d)) 


> ses*2 ttlos límites del sesgo son 2 veces el ses 
[1] 1.85164 flímites del sesgo 

> sek=sqrt(24/length(d)) 

> sek*2 ttflos límites de la curtosis son 2 veces el sek 
[1] 3.70328 flímites de la curtosis 
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> ses*4 Hotra forma de estimar los límites para la 
curtosis 


[1] 3.70328 flímites de la curtosis 
7. Cinco números de resumen, summary() 
> summary(d) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
8.0 1255 15.0 15.0 18.5 20.0 


Con esto podemos calcular el mínimo, el máximo, el rango, el rango intercuartil y la 
desviación cuartil. 


El rango sería la diferencia entre el máximo y el mínimo. Podemos obtenerlo también 
desde el comando range() 

> range(d) 

[1] 8 20 

El rango intercuartil es la diferencia entre el tercer cuartil y el primer cuartil. 


La desviación cuartil es el rango intercuartil dividido dos. 


Debemos recordar, que cuando el grupo es asimétrico, la tendencia central que se reporta 
es la mediana y la medida de dispersión es la desviación cuartil. 


8. Prueba de normalidad de los datos, shapiro.test() 
Fabricamos un grupo llamado “datos”, constituido por 60 números aleatorios con una 
media aritmética de 50 y una desviación estándar de 10. 


> datos=c(rnorm(60,50,10)) 
> shapiro.test(datos) 


Shapiro-Wilk normality test 


data: datos 
W = 0.98362, p-value = 0.5988 


Un valor de p < 0.05, indica que existe diferencia significativa de la normalidad. 


En este caso el valor de p=0.5988 (> 0.05) nos indica que no hay diferencia significativa de 
la normalidad. 
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9. Prueba de varianzas iguales, var.test() 


Comparamos dos grupos aleatorios con distribución normal, con media de 50 y desviación 
estándar de 10, llamados “datos” y “datos2” 


> var.test(datos,datos2) 
F test to compare two variances 


data: datos and datos2 
F = 1.0241, num df = 59, denom df = 59, p-value = 0.9275 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.6116975 1.7144154 
sample estimates: 
ratio of variances 
1.024062 


10. Otros comandos útiles para la descripción de los grupos. 


- stem() produce un diagrama de tallo y hojas de los datos. 
- quantile() produce el cálculo de cuartiles. 

- hist() produce un histograma de los datos. 

- boxplot() produce un diagrama de caja y bigotes de los datos. 
- 1s() muestra los objetos en memoria 
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10. Un ejemplo. 


Estadística descriptiva: Se dedica a 
la descripción, visualización y 
resumen de datos originados a 
partir de los fenómenos de estudio. 





— WikiP 


10. Un ejemplo de estadística descriptiva de 
principio a fin. 
A menos que utilicemos R para hacer análisis con cierta frecuencia, es normal que se nos 


olviden ciertos comandos o tengamos problemas al momento de empezar a analizar un 
grupo de datos. 


Esto es especialmente verdadero cuando empleamos R en nuestros estudios en la 
Universidad y en las investigaciones que se desarrollan en los distintos cursos, las cuales 
están rodeadas de muchos más conocimientos y actividades que hacen que dificultan el 
tener presente todos los comandos y pautas importantes que se han mencionado. 


Para ayudar a ese nuevo “arranque en frío” del proceso de análisis, voy a presentar un 
ejemplo paso a paso del análisis de la estadística descriptiva en un grupo y la elaboración 
de un reporte preliminar, de manera que sirva de orientación y en la medida de lo posible 
no haga necesaria la lectura de todos los capítulos del libro. 


Es necesario remarcar que en investigación no se pueden emplear “recetas” para el 
análisis y que el criterio del investigador es quizás la herramienta más importante a tomar 
en cuenta, por lo que este ejemplo no busca reducir el proceso de investigación a la 
aplicación de una receta, sino más bien orientar los primeros pasos en la descripción de un 
grupo, manteniendo presente que la interpretación de los datos debe ser realizada 
teniendo presente el contexto de la investigación, los objetivos y las limitaciones 
encontradas durante el trabajo de campo y análisis de los datos. 
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Base de datos para investigación fichas2.ods - LibreOffice Calc AAA 


Archivo Editar Ver Insertar Formato Estilos Hoja Datos Herramientas Ventana Ayuda x Partamos de un caso 


























E-5-- 00 XGE- 44 9-o- % > HE DATO BA : 
A A a concreto: 
Ja | + Jfx z-= sal 
j > os : EE | Se realiza una investigación 
3] 293 2018PIN 201317780 4 1 7 1 0 sobre el tiempo que le toma a 
> 525 2019PIN 201604370 4 8 16 1 0 ¡ 

unos estudiantes de 
Ñ | 294 2018PIN 201500169 4 0 14 1 o[ |] dentoleaía. “Arvali left 
> 560 2019PIN 201604370 4 6 40 2 0 cantera malcer entes 
: 607 2019PIN 201512356 4 11 1 0 0 fases del proceso de ingreso 
El 367 2018PIN 201512766 4 192.1-.0 | de pacientes a una clínica en 
. 564 2019PIN 201612047 4 6 69 1 0 articular 
> 598 2019PIN 201315064 4 19 18 O 0 p e 
. 722 2019PIN 201604224 4 7 2 0 0 El objetivo es hacer una 
a 433 2019PIN 201603899 4 0 31 32 0 descripción inicial de los datos 
2 1390 2019PI 201119485 4 0 4 0 3 = 
ul 205 2020PI 201701407 4 28 6 0 13 recolectados En ES ames 
y 87 2020PI 201403216 4 6 21 10 0 distintos, el 2018, 2019 y 2020. 


mn El tiempo se registra en días y 


Hojal del PageStyle Hojal Español (Guatemala) 1-10 Promedio: ; Suma: O ———0—+ | 200% 


02100 O BL JEIG monmocaa a UASD Ma. las Fases del Proceso se 
identifican como Fase 1 y 2, 











Fase 3, Fase 4 y Fase 5. 
Otras variables a tomar en cuenta, son el tipo de paciente y el año que cursa el estudiante. 


A. Arreglo de la base de datos 


a O Eliminar formatos innecesarios. 
ad O Renombrar variables según las 
normas de R. 

O Marcar espacios vacíos con “NA” 





201317780 
201604370 
201500169 
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201512356 
201512766 
201612047 
201315064 
201604224 
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201701407 
201403216 
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Base de datos para investigación fichas2.ods - LibreOffice Calc 
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B. Ingreso de la base de datos a R. 





















Se seleccionan los datos en la hoja| “SEE 
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Se inicia R desde la ventana de comandos 





rooté R 
cannot find system Renviron 


R version 3.2.3 (2015-12-10) -- "Wooden Christmas-Tr: 
A A ona 
tform: x86_64-pc-linux-gnu (64-bit) 


Res un software libre y viene sin GARANTIA ALGUNA. 
Usted puede redistribuirlo bajo ciertas circunstancias. 
Escriba 'license()' o 'licence()" para detalles de distribucion. 


cto colaborativo con muchos contribuyente 
Escriba  comtributors()" para paa oo al y 
“citation()' para saber cómo citar R o paquetes de R en publicaciones. 


Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de ayuda, 
o “help.start()' para abrir el sistema de Syuaa mruL con su navegador. 
Escriba *q()' para salir de R. 














Se ingresan los datos copiados de la hoja electrónica a un data.frame que vamos a llamar 
fichas, utilizando el comando read.delim la sintaxis completa es: 


nombre=read.delim(“clipboard”) 


Donde “nombre” será fichas. 


>fichas=read.delim(“clipboard”) 


> 
> fichas=read.delim("clipboard") 
> 
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Verificamos la base de datos con head() 


headífichas) > head(fichas) 
ciclo carne grado tf1_2 tf3 tf4 tf5 
2018 201317780 
2019 201604370 
2018 201500169 


2019 201604370 
2019 201512356 
2018 201512766 





C. Revisión general de los datos summary(), table() y 
basicStats() 


Una visión general de los datos la obtenemos a través del comando summary() 

> summary(fichas) 

IDNO ciclo tipo carnet grad 
: 10.0 Min. :2018 PI :46 Min. :201119485 3 3 

1Ist Qu.: 256.0 1st Qu. :2019 PIN:22 1st Qu. :201315064 5 4 


Median : 585.5 Median :2019 PT: 4  Median :201512356 ) 


Mean : 682.4 Mean :2019 Mean :201465655 PRC: 
7 
3rd Qu.:1074.2 3rd Qu. :2019 3rd Qu. :201604224 
Max. :2104.0 Max. :2020 Max. :201701447 
NA's ¿3 
tf1_2 tf3 tf4 tf5 
Min. : 0.00 Min. : 0.00 Min. : 0.000 Min 9.00 
1st Qu.: 0.00 1Tst Qu.: 2.75 1st Qu.: 0.000 1st Qu 9.00 
Median : 3.50 Median : 10.00 Median 1.000 Median : 2.00 
Mean 6.25 Mean + 19,71 Mean : 5.486 Mean : 32,28 
3rd Qu 8.00 3rd Qu.: 21.50 3rd Qu.: 7.000 3rd Qu. :; 25.25 
Max. 30.00 Max. :238.00 Max. :58.000 Max. :273.00 
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Podemos observar que las estadísticas descriptivas de las variables “IDNO”, “ciclo” y 
“carnet” no tienen significado. En el caso de “IDNO” solo es el número de identificación y 
por lo tanto es una variable nominal por lo que carece de características numéricas y 
simplemente ignoramos estos datos. Lo mismo sucede con la variable “carnet”, al ser el 
número de carné del estudiante es una variable nominal que no tiene características 
numéricas. 


La variable “ciclo” también es una variable nominal, por lo que no son valores numéricos, 
pero a diferencia de “IDNO” y “carnet”, en este caso si nos interesa saber cuántas unidades 
de estudio se ubican en cada ciclo, por lo que haremos uso del comando table() para 
obtener esta información. 


> table(fichas$ciclo) 2018 2019 2020 


13 41 18 





Esto ya nos permite extraer información preliminar de los datos: 


> table(fichas$ciclo) Los datos están mayormente constituidos 
por fichas de pacientes del año 2019 con 
2018 2019 2020 41 
13 41 18 


> Vemos que el % por ciclo es: 
prop.table(table(fichas$ciclo)) |2018 18.06% 
2019 56.94% 
2018 2019 2020 2020 25.00% 
0.1805556 0.5694444 0.2500000 


Que el tipo de paciente tiene una 
frecuencia de: 

Paciente integral 46 
Paciente integral niño 22 
Paciente de Total 4 


Por lo que los resultados no reflejan el 
comportamiento de los pacientes de Total 
y debería aumentarse el número de 
pacientes en este renglón o retirarlos del 
estudio. 
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a ye 
Min. : 0.00 
1st Qu.: 0.08 
Median : 3.50 
Mean : 6.25 
3rd Qu.: 8.00 
Max. :30.00 


El grupo estuvo constituido mayormente 
por alumnos de 4o y 50 grado. 

Habiendo únicamente 2 pacientes de 3o y 
7 de Pendientes de Requisitos Clínicos, por 
lo que debería aumentarse la recolección 
en estos rubros o retirarlos del estudio. 


Con respecto al tiempo necesario para 


finalizar la fase 1 y 2, encontramos una 
media de 6.25 y mediana de 3.5 


Datos que son aplicables, pero 
insuficientes para un adecuado análisis. 





Para poder hacer un mejor análisis de las variables “tf1_2”, “tf3”, “tf4” y “tf5” vamos a 
cargar la librería “fBasics” y usar el comando “basicStats” 


Cargamos la librería “fBasics” 


> library(fBasics) 


Loading required package: timeDate 
Loading required package: timeSeries 


Rmetrics Package fBasics 

Analysing Markets and calculating Basic 
Statistics 

Copyright (C) 2005-2014 Rmetrics Association 


Zurich 


Educational Software for Financial Engineering 
and Computational Science 

Rmetrics is free software and comes with 
ABSOLUTELY NO WARRANTY. 

https: //ww.rmetrics.org --- Mail to: 
info0rmetrics.org 

> 
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y Usamos el comando “basicStats” con cada variable 


> basicStats(fichas$tf1_2) X..fichas.tf1_2 
nobs 72.000000 
NAs .000000 
Minimum .000000 
Maximum .000000 
1. Quartile .000000 
3. Quartile .000000 
Mean .250000 
Median .500000 
Sum .000000 
SE Mean .921137 
LCL Mean .413305 
UCL Mean .086695 
Variance .091549 
Stdev .816108 
Skewness .468003 
Kurtosis .391960 


ÉS 
37] w 
22 J20RAHÁ40000000O00N 


[e 


> basicStats(fichas$Stf3) . Fichas.tf3 
nobs .000000 
NAs .000000 
Minimum .000000 
Maximum .000000 
1. Quartile .750000 
3. Quartile . 500000 
Mean . 708333 
Median .000000 
Sum .000000 
SE Mean .032557 
LCL Mean .667643 
UCL Mean .749024 
Variance .829225 
Stdev .217382 
Skewness .236162 
Kurtosis .846132 
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> basicStats(fichas$tf4) . fichas.tf4 

nobs 72.000000 

NAs .000000 
.000000 
.000000 
.000000 
.000000 
.486111 
.000000 
.000000 
.262650 
.968458 
.003764 
. 788537 
.713941 
.772490 
.224687 


Minimum 
Maximum 

1. Quartile 
3. Quartile 
Mean 


al 
O 000 


Median 
Sum 

SE Mean 
LCL Mean 
UCL Mean 
Variance 
Stdev 
Skewness 
Kurtosis 


0) 
wo 


_ 
2 
0NO0O*R»0o0NnN da ua 





D. Gráficas exploratorias. 


Podemos observar también el comportamiento general de los datos a través de diagrama 
de barras o histogramas, para esto: 
O Generamos gráficas de cada variable. 
O Guardamos aquellas gráficas que resulten convenientes, según lo visto en la 
sección “6. Archivo de salidas, Guardando Gráficas”, “Archivo gráfico jpg . jpg(” 
página 32. 


> jpegí(filename="ciclo.jpg") 
> barplot(table(fichas$ciclo)) 
> dev.off() 
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En este caso particular el comando barplot() que genera una gráfica de barras no lo 
aplicamos directamente a la variable, sino al resultado de table() para que resulte una 
gráfica que nos muestre la frecuencia por ciclo. 


De aplicarlo de manera convencional, el programa considera que es una variable numérica 
y nos regresaría una gráfica con cada uno de los valores en la serie. 


> jpeg(filename="ciclo2.jpg") 
> barplot(fichas$ciclo) 
> dev.off() 














> jpegí(filename="tf1_2.jpg”) 
> hist(fichas$tf1_2) 
> dev.off() 


Histogram of fichas$tf1_2 


40 





30 





Frequency 


10 
L 














fichas$tf1_2 
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> ¡peg(filename="tf3.jpg") 
> hist(fichasStf3) 
> dev.off() 


Histogram of fichas$tf3 





Frequency 

















0 50 100 150 200 250 
fichas$tf3 
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E. Variantes del valor de una variable dependiendo del 
grupo o factor. 


Si queremos determinar si existe alguna variante del valor de una variable dependiendo del 
grupo, podemos aplicar el comando: 


tapplyO 
Para determinar el valor de la media aritmética, dependiendo del grupo, utilizamos: 
>tapply(datosSvalor,ddatosSgrupo,mean) 
Para determinar el valor de la desviación estándar, dependiendo del grupo, utilizamos: 


> tapply(datosSvalor,datosSgrupo,sd) 


Si queremos observar el valor promedio 
de “tf1_2” dependiendo del ciclo, usamos: 


> tapply(fichas$tf1_2,fichas$ciclo,mean) 2018 2019 2020 
5.461538 7.560976 3.833333 


Para observar el valor promedio de 
“tf1_2” dependiendo del grado, usamos: 


3 4 5 PRO 
> tapply(fichas$tf1_2,fichas$grado,mean) | 18-58esees 6.6818182 6.1852632 8.4285714 





La estructura del comando se mantiene. Únicamente sustituimos el análisis a correr 


tapply(datos$Svalor,datosSgrupo,mean) 


Podemos ver una serie de comandos para utilizar en “14. Referencia de comandos útiles. 
Comandos para el análisis numérico de datos”, página 101. 
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F. Gráficas exploratorias para los valores de la variable, 
dependiendo de un vector. 


En algunos casos puede ser deseable el comparar de una manera gráfica algunos 
resultados dependiendo de un factor. De una forma similar a como empleamos el 
comando tapply() en la sección anterior. 


> boxplot(fichas$tf1_2-fichasSciclo) 


























2018 2019 2020 





G. Unas últimas palabras. 


R es un lenguaje muy versátil y no existe un único camino para obtener los resultados 
deseados. 


La presente guía es solamente una sugerencia y una orientación para tener presente en el 
caso de que necesitemos el apoyo al momento de iniciar con los análisis. 


De hecho cada persona debe ir desarrollando su forma de trabajar, dependiendo de su 
facilidad de aprendizaje, su dominio del lenguaje y los objetivos e intereses propios. 


Un ejemplo de la versatilidad de R y otra forma de generar gráficas similares a la anterior 
por otra ruta, es extrayendo los valores de tf1_2 por ciclo, y crear vectores independientes 
para cada ciclo, con el comando subset(). 
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De tal manera que creamos un vector con los resultados de “tf1_2” (la variable) cuando el 
valor del ciclo sea igual a 2018 (grupo). Creamos otro vector con los resultados de “tf1_2” 
cuando el valor del ciclo sea igual a 2019 y así sucesivamente. 


> tf1_2.ciclo2018=subset(fichas$tf1_2,fichas$ciclo=="2018") 


> tf1_2.ciclo2019=subset(fichas$tf1_2,fichas$ciclo=="2019") 
> tf1_2.ciclo2020=subset(fichas$tf1_2,fichas$ciclo=="2020") 





4“. 9» 


El nombre de los vectores puede ser cualquiera. Desde algo tan simple como “a” o 
“grupo1”, pero es recomendable que nos ayude a recordar qué fue lo que colocamos en 
cada vector creado. 

Una vez creados los vectores, simplemente utilizamos el comando boxplot() 


boxplot(vector_a, vector_b, vector_c) 


En nuestro caso: 


> jpeg(filename="tf1_2_ciclo.jpg") 
> boxplot(tf1_2.cicl1o2018,tf1_2.cic1o2019,tf1_2.ciclo2020) 
> dev.off() 
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11. Pruebas de diferencia. 


Las pruebas estadísticas detectan 
diferencias significativas entre 
grupos. 





— WikiP 


11. Pruebas de diferencia 


t de Student para diferencia de dos muestras. 


La t de Student es una prueba de contraste paramétrica para comprobar la igualdad de las 
medias de dos muestras o de una muestra contra el parámetro. 


Para poder aplicarse la prueba t de Student debe cumplir con los siguientes supuestos: 
Nivel de medida de las variables: métricas, es decir, intervalo o razón. 

Distribución: normal o aproximadamente normal. 

Tipo de diseño: equilibrado o no equilibrado. 

Varianzas poblacionales: desconocidas, supuestamente iguales o sin supuesto de 
igualdad. 

Observaciones: aleatorias e independientes. 

Hipótesis que se somete a prueba: la diferencia entre las dos medias toma un 
determinado valor, generalmente cero. 


Debe cumplirse con las escalas numéricas, el tipo de diseño, las observaciones 
independientes y el planteamiento de las hipótesis, en el diseño estadístico. 


Hay que confirmar la normalidad en la distribución de los grupos y la igualdad de 
varianzas, para que la prueba de t tenga validez. 


Para normalidad se puede emplear la prueba de Shapiro, con shapiro.test() 
Para la igualdad de varianzas, con el test de varianzas iguales, var.test() 


Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 80 


Así, teniendo las dos poblaciones “datos” y “datos2”, procedemos: 


> shapiro.test(datos) 


> shapiro.test(datos2) 


> var.testí(datos,datos2) 


Shapiro-Wilk normality test 


data: datos 
0.98362, p-value = 0.5988 


Shapiro-Wilk normality test 


data: datos2 
0.96446, p-value = 0.0779 


F test to compare two variances 


data: datos and datos2 
1.0241, num df = 59, denom df 
p-value = 0.9275 
alternative hypothesis: true ratio of 
variances is not equal to 1 
95 percent confidence interval: 
0.6116975 1.7144154 
sample estimates: 
ratio of variances 
1.024062 





Los resultados de normalidad son significativos al 95% (p-value > 0.05) 
La igualdad de varianzas resultado positivo (p-value >0.05) 
Por lo que se puede aplicar la prueba t de Student para determinar diferencia entre los 


grupos. 
> t.test(datos,datos2) 


Welch Two Sample t-test 


data: datos and datos2 

1.7641, df = 117.98, p-value = 0.0803 
alternative |hypothesis: true difference 
in means is not equal to 0 


95 percent confidence interval: 
-0.3908077 6.7695402 

sample estimates: 

mean of x mean of y 

51.40999 48.22054 





Como el valor de p es mayor a 0.05, no se encuentra diferencia significativa. 
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Si comparamos los grupos “datos” con “datos3”, para determinar diferencia, debemos 
probar la normalidad de “datos3”, la de “datos” había sido probada en el ejemplo anterior. 


> shapiro.test(datos3) Shapiro-Wilk normality test 


data: datos3 
0.98056, p-value = 0.4525 





El grupo es normal. 


Comparamos las varianzas 


> var.testí(datos,datos3) 


F test to compare two variances 


data: datos and datos3 
1.273, num df = 59, denom df = 59, p-value = 0.3565 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.7603895 2.1311572 
sample estimates: 
ratio of variances 
1.272992 





Al comparar las varianzas, encontramos que no hay diferencia. 
Por lo que podemos correr la prueba t de Student 


> t.test(datos,datos3) Welch Two Sample t-test 


data: datos and datos3 
10.739, df = 116.32, p-value < 2.2e-16 
alternative hypothesis: true difference in 


means is not equal to 0 
95 percent confidence interval: 
15.049909 21.85659 


sample estimates: 
mean of x mean of y 
51.409998 32.95666 





En este caso, encontramos que el valor de p es mucho menor a 0.05, por lo que podemos 
concluir una diferencia significativa. 
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t de Student para diferencia de una muestra. 


Si se desea comprobar si una muestra difiere de la media poblacional, se puede emplear el 
comando: 
t.test(vector, mu=media) 


En el caso que quisiéramos comparar la muestra “datos” con la media poblacional de 40, 
procedemos así: 


> t.testí(datos, mu=40) One Sample t-test 


data: datos 
8.8726, df = 59, p-value = 1.864e-12 

alternative hypothesis: true mean is not equal to 
40 
95 percent confidence interval: 
48.83669 53.98312 
sample estimates: 
mean of x 

51.4099 





Como el resultado de p es mucho menor a 0.05, se encuentra diferencia significativa entre 
“datos” y la población teórica con mu=40 


Prueba U de Mann-Whitney, Prueba de Wilcoxon o 
Prueba de Rangos con signo de Wilcoxon, wilcox.test() 


Si no se cumplen los supuestos de la prueba t de Student, la opción para la determinación 
de diferencia entre dos grupos es la prueba no paramétrica U de Mann-Whitney también 
llamada prueba de Wilcoxon. 

La escala de la variable debe ser por lo menos ordinal. 


El comando para el análisis es: 


wilcox.test(x,y, paired=FALSE, conf.level=0.95) 
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>wilcox.test(datos,datos2, paired=FALSE,conf.level=0.95) 


Wilcoxon rank sum test with continuity correction 


data: datos and datos2 
W = 2216, p-value = 0.0292 
alternative hypothesis: true location shift is not equal to O 





El argumento “paired=FALSE” es el que indica que los datos provienen de muestras 
independientes. 
Si los datos provienen de la misma población sería “paired=TRUE” 


En este caso la prueba indica diferencia significativa con una p<0.05 


Prueba de ANOVA, aov() 


Del mismo modo que la t de Student, la prueba ANOVA es una prueba paramétrica y como 
tal requiere una serie de supuestos para poder ser aplicada correctamente. 


Denominada ANOVA o análisis de la varianza, en realidad nos va a servir no solo para 
estudiar las dispersiones o varianzas de los grupos, sino para estudiar sus medias y la 
posibilidad de crear subconjuntos de grupos con medias iguales. 


Se puede decir que la prueba ANOVA es la generalización de la t de Student, ya que si 
realizamos una prueba ANOVA en la comparación de solo dos grupos, obtenemos los 
mismos resultados. 


Al igual que la t de Student, se requiere que cada uno de los grupos a comparar tenga 
distribuciones normales, o lo que es más exacto, que lo sean sus residuales. 


Los residuales son las diferencias entre cada valor y la media de su grupo. 


Además debemos estudiar la dispersión o varianzas de los grupos, es decir estudiar su 
homogeneidad. 


Cuando mayor sean los tamaños de los grupos, menos importante es asegurar estos dos 


supuestos, ya que el ANOVA suele ser una técnica bastante “robusta” comportándose bien 
respecto a transgresiones de la normalidad. 
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No obstante, si tenemos grupos de tamaño inferior a 30, es importante estudiar la 
normalidad de los residuos para ver la conveniencia o no de utilizar el análisis de la 


varianza. 


Si no fuera posible utilizar directamente el ANOVA, podemos recurrir al uso de pruebas no 


paramétricas, como la de Kruskal-Wallis. 


Para la prueba de ANOVA, necesitaremos un data.frame con dos vectores, la variable de 


agrupación y la variable de valores. 


> grupo=c(rep("A",30), rep("B",30), rep("C",30)) tcreamos un vector con 30 datos de cada uno 


> valor=c(rnorm(90,75,5)) 


> ejl=data.frame(grupo, valor) 


valor 
.23042 
.76152 
.96561 
.30342 
.49030 
.97284 


de los valores A, B y C. 


creamos 90 valores aleatorios con 
distribución normal, con media de 75 y 
desviación estándar de 5. 


tftcreamos el data.frame “ej1” combinando 
“grupo” y “valor” 


* verificamos la estructura del data.frame 
“ej1”, mostrando las primeras seis filas. 





Para verificar la normalidad en cada grupo, los extraemos a sendos vectores con el 


comando subset(): 


grupo.a=subset(ej1S$Svalor,ejlSgrupo=="A”) 
grupo.b=subset(ej1Svalor,ej1Sgrupo=="B”) 
grupo.c=subset(ej1$valor,ejl$grupo=="C”) 


> shapiro.test(grupo.a) 
Shapiro-Wilk normality test 


data: grupo.a 
0.98397, p-value = 0.9184 


> shapiro.test(grupo.c) 


Shapiro-Wilk normality test 


data: grupo.c 
0.95855, p-value = 0.2843 


> shapiro.test(grupo.b) 
Shapiro-Wilk normality test 


data: grupo.b 
W = 0.96436, p-value = 0.3983 


En los tres grupos el p-value > 0.05 nos 
indica que no hay diferencia 
significativa con respecto a la normal. 
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El comando para el ANOVA es: aov() 
En este caso al tener los datos en un data.frame, ejecutamos: 
res.aov=aov(valor=grupo,ej1) 


> res.aov=aov(valor-grupo,ejl) 
> res.aov 
Call: 
aov(formula = valor — grupo, data = ejl) 


Terms: 

grupo Residuals 
Sum of Squares 246.0783 1859.2576 
Deg. of Freedom 2 87 


Residual standard error: 4.622854 
Estimated effects may be unbalanced 


Al operar el comando summary() a los resultado obtenidos (res.aov) nos da: 


> summary(res.aov) 

Df Sum Sq Mean Sq F value Pr(>F) 
grupo 2 246.1 123.04 5.757 0.00449 *x*x 
Residuals 87 1859.3 21.37 
Signif. codes: 0 '***x” g,001 '*x*” 
0.01 'x” 8.05 *.* 8.1 * *? 1 


> 


R Graphics: Device 2 (ACTIVE) -= 4) X 





En este caso, se encuentra diferencia UE 
significativa entre los grupos. | => 





Esto lo podemos apreciar a través del 
diagrama de caja y bigotes elaborado por Aa 
grupo a través del comando: 




















> boxplot(ej1Svalor=ej1$grupo) 





Al encontrar diferencia significativa (p-value 8 
<0.05) es necesario indicar la media y A E E 
desviación estándar por condición. 
tapply(ej1Svalor,ej1Sgrupo,mean) y 
tapply(ej1Svalor,ej1Sgrupo,sd) 
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> tapply(ejl$valor,ejl$grupo,mean) 
A B E 

75.21755 71.75839 75.31268 

> tapply(ejl$valor,ejl$grupo,sd) 
A B C 

4.315972 4.608699 4.923881 


Podemos simplificar la escritura convirtiendo las columnas a objetos con el comando 
attach(), en este caso: 


attach(ej1) 
Así solo escribimos: 


tapply(valor,grupo,mean) y tapply(valor,grupo,sd). Al finalizar escribimos detach(ej1) para 
cancelar el attach() 


> attach(ejl) 
The following objects are masked _by_ .GlobalEnv: 


grupo, valor 
The following objects are masked from ejl (pos = 3): 


grupo, valor 


> tapply(valor,grupo,mean) 
A B E 
75.21755 71.75839 75.31268 


> tapply(valor,grupo,sd) 
A B Cc 
4.315972 4.608699 4.923881 


> detach(ej1l) 
> 





Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 87 


Prueba de Kruskal-Wallis, alternativa no paramétrica al 
ANOVA para grupos independientes. kruskal.test() 


El test de Kruskal-Wallis, también conocido como test H. es la alternativa no paramétrica al 
ANOVA de una vía para grupos independientes. 
Busca contrastar la hipótesis que “k” muestras han sido obtenidas de la misma población. 


Ho: Todas las muestras provienen de la misma población (distribución). 
Ha: Al menos una muestra proviene de una distribución distinta. 


Condiciones: 
No es necesario que las muestras provengan de una distribución normal. 


O Todos los grupos deben tener varianzas similares. Se puede comprobar con 
representaciones gráficas o con los test de Levernne o Barttlet. 

O Misma distribución para todos los grupos. No tiene porque ser normal, pero ha de 
ser igual en todos por ejemplo que todos muestren asimetría hacia la derecha). 


Si estos requisitos se cumplen, el estadístico H del test de Kuskal-Wallis se compara con: 
0 Si el tamaño de grupos es igual a 3 y el número de observaciones no es mayor que 
5, se recurre a tablas con valores teóricos de H. 

6 En el resto de casos se asume que el estadístico H sigue una distribución x?con k-1 
grados de libertad (siendo k el número de grupos a comparar) 


Generalmente se considera que se debe emplear Kruskal-Wallis, cuando las poblaciones a 
comparar sean claramente asimétricas, se cumpla que todas lo sean en la misma 
dirección y que la varianza sea homogénea. 


Si la varianza no es homogénea el test adecuado es un ANOVA con corrección de Welch. 


Ejemplo: 
Teniendo el grupo “Datos1”, el cual está constituido por 3 grupos “A”, “B” y “C” cada uno de 
6 datos, con números del 1 al 6. Queremos determinar si hay diferencia entre los grupos. 


Al analizar los grupos tenemos: 


> summary(Datos1) > grupo.a=subset(Datos1S$valor,Datos1$grupos=="A") 

grupos valor > shapiro.test(grupo.a) 

A:6 Min. ¿La 
1st Qu.: 
Median 


Shapiro-Wilk normality test 


3rd Qu.: 
Max. 


W = 0.75467, p-value = 0.02212 


2 
4 
Mean 13. data: grupo.a 
5 
8 
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Los grupos no cumplen con la normalidad, p-value < 0.05 en el test de Shapiro. 


Tienen la misma distribución, como lo demuestran sus histogramas y presentan una 
aparente diferencia. 


Queremos determinar si la diferencia es significativa, pero no se cumplen los supuestos 
para la aplicación de ANOVA, por lo que se recurre a la prueba de Kruskal-Wallis 


> kruskal.test(Datos1$valor,Datos1$grupos) 


Kruskal-Wallis rank sum test 


data: Datosl1$valor and Datos1$grupos 
Kruskal-Wallis chi-squared = 11.136, df = 2, p-value = 0.003818 





Encontramos diferencia significativa, con un p-value < 0.05. 


Comparaciones Post-Hoc 


Al encontrarse diferencia significativa, implica que al menos dos grupos son 
significativamente diferentes, pero no nos indica cuales. 
Para determinarlo es necesario compararlos entre ellos. 
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Esto podemos hacerlo por medio de “pairwise.wilcox.test()” 
> pairwise.wilcox.test(Datos1$valor,Datos1$grupos) 
Pairwise comparisons using Wilcoxon rank sum test 
data: Datosl$valor and Datos1$grupos 
A B 
B 0.187 - 
C 0.013 0.030 


P value adjustment method: holm 


Lo que nos indica una diferencia significativa del Grupo C con respecto a los otros dos, con 


valores de p menores a 0.05. 
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12. Correlación. 





La correlación es una medida 
estadística que expresa hasta qué 
punto dos variables están 
relacionadas linealmente. 


— JMP 





12. Correlación. 


El coeficiente de correlación 
paramétricos. 


se puede calcular por métodos paramétricos y no 


> Coeficiente de Correlación de Pearson. 


Coeficiente paramétrico 
> Coef. De Correlación por Rangos de Spearman. 


Coef. No paramétrico 


Coeficientes de Correlación. 


Teniendo los datos: 


> peso 
[1] 51 59 49 54 50 55 48 53 52 57 


> long 


[1] 33.5 38.0 32.0 37.5 31.5 33.0 31.0 36.5 34.0 35.0 


> 


>pairs(l0ong-peso) + permite elaborar un plot de correlación. 





Aplicación práctica de R para el análisis de datos en investigación. Dr. Servio Interiano. Página 91 





RR Graphics: Device 2 (ACTIVE) 





long 











peso 

















Esta gráfica podemos generarla sin necesidad de ninguna otra librería y resulta práctica 
pero un poco simple. 


Si se van a trabajar varios análisis de correlación, existen algunos paquetes que nos dan 
un resultado más estético. 


Una forma de obtener una gráfica de correlación de una forma elegante es a través del 
paquete “PerformanceAnalytics” 


library(PerformanceAnalytics) + Nuestros datos es mejor tenerlos en un data.frame 


datl <- data.frame(peso, long) 


chart.Correlation(dat1) 
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48 50 52 54 56 58 


39 37 


33 





31 





48 50 92 54 56 58 


Esto nos permite ver el coeficiente de correlación, el comportamiento individual de cada 
grupo y su gráfica de correlación. 


Pero no es indispensable hacerlo a través de la instalación de paquetes, podemos trabajar 
con el programa base sin ningún problema. 


Cálculo de la correlación. cor(x, y) 


Utilizando los datos presentados en la sección anterior, tenemos que para el cálculo del 
coeficiente de correlación de Pearson utilizamos: 


> cor(peso, long) 
[1] 0.7794691 


Podemos utilizar también el comando “cor.test()” para calcular el coeficiente de 
correlación de Pearson, su intervalo de confianza y su significancia. 
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Asi: 


> cor.test(peso,long) 


Pearson's product-moment correlation 


data: peso and long 
t = 3.5194, df = 8, p-value = 0.007853 


alternative hypothesis: true correlation is not equal to O 


95 percent confidence interval: 
0.2942560 0.9452104 
sample estimates: 
cor 
0.7794691 
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Correlación por rangos de Spearman. 
cor(x,y,method="”spearman”) 


Cuando existan dudas de si se cumplen las premisas para la aplicación de Pearson, la 
opción es la prueba no paramétrica de Spearman. 


Ejemplo: 
Para dos series de datos “x” y “y”, siendo estas: 
> x=C(44.4,45.9,41.9,53.3,44.7,44.1,40.7,45.2,60.1) 


> y=c(2.6,3.1,2.5,3,3.6,4,3.2,2.8,3.8) 


Probamos normalidad en ambos grupos, a través de la prueba de Shapiro: 


4. 9 


para el grupo “x” tenemos: 


> shapiro.test(x) 


Shapiro-Wilk normality test 


data: x 
W = 0.80304, p-value = 0.02212 <El grupo no es normal, (p<0.05) 





»n, 9» 


Para el grupo ”y” tenemos: 


> shapiro.test(y) 
Shapiro-Wilk normality test 


data: y 
W = 0.94856, p-value = 0.6743  <+El grupo es normal, (p>0.05) 





Como un grupo no cumple con la normalidad, no se puede aplicar Pearson y debemos 
aplicar la prueba de Spearman. 
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El comando es prácticamente igual que para Pearson, con el modificador 
“method="spearman” * 


cor(x, y, method="spearman”) 


> cor(x, y, method="spearman") 
[1] 0.1666667 





De igual manera para calcular la significancia, el intervalo de confianza y el coeficiente en 
un solo paso, utilizamos “cor.test(x,y, method="spearman”) 


> cor.test(x,y,method="spearman") 


Spearman's rank correlation rho 


data: x and y 
S = 100, p-value = 0.6777 


alternative hypothesis: true rho is not equal to O 


sample estimates: 
rho 
0.1666667 
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13. Regresión. 


A A A 





El análisis de regresión es un 
proceso estadístico que permite 
analizar la relación que existe entre 
dos o más variables, siendo una de 
ellas dependiente al resto de 
variables que estemos empleando 
en nuestro cálculo matemático. 


— -S del Sol 





13. Análisis de regresión lineal. 


El análisis de regresión se utiliza cuando el investigador sabe que existe una relación entre 
las variables y busca determinar la curva que mejor se ajuste a sus datos. 


Para el análisis de regresión lineal, deben cumplirse los siguientes supuestos: 
1. En la población, la relación entre las variables “x” e “y” debe ser aproximadamente 
lineal. 
2. Los residuos se distribuyen según una distribución normal de media 0. 
3. Los residuos son independientes. 
4. Los residuos tienen una varianza poblacional constante. 


Siendo: 


> peso=c(61,60,78,62,66,60,54,84,68) H creamos un vector “peso”. 


> altura=c(162,154,180,158,171,169,166,176,163) H creamos un vector “altura”. 


> ejl=data.frame(peso,altura) $ creamos el data.frame “ej1” con la 
unión de “peso” y “altura” 
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Operamos el análisis de regresión lineal a través del comando: Im() con la siguiente 
sintaxis: 


Im(variablel-variable2,data="nombre del data.frame”) 


y este resultado lo ingresamos en un vector, para poder evaluar el sumario, quedando al 
final de la siguiente manera: 


nombre.vector=Im(variable1 —variable2,data="nombre del data.frame”) 


En nuestro ejemplo, trabajando con el data.frame llamado ej1, escribimos: 


> regl=!Im(peso-altura,data=ejl) 


Luego leemos los resultados a través del comando: 


> summary(regl) Call: 
Im(formula = peso - altura, data = ejl) 
Residuals: 
Min 1Q Median 3Q Max 
-11.444 -3.447 1.347 4.164 10.549 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -67.4679 51.1995 -1.318 0.229 
altura 0.8007 0.3071 2.608 0.035 * 


Signif. codes: 0 ****" 0,001 '***" 0,01 *** 0.,05*'0.1'”*1 


Residual standard error: 7.268 on 7 degrees of freedom 
Multiple R-squared: 0.4927, Adjusted R-squared: 
0.4203 

F-statistic: 6.799 on 1 and 7 DF, p-value: 0.03504 
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Luego, operamos un cuadro de análisis de varianza sobre el resultado de regresión, para 
obtener la significancia. 


> anova(regl) Analysis of Variance Table 
Response: peso 
Df Sum Sq Mean Sq F value Pr(>F) 
altura 1 359.15 359.15 6.7994 
0.03504 * 


Residuals 7 369.74 52.82 


Signif. codes: 0 **** 0,001 ***” 0.01 **' 
0.05“.'0.1'”1 
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Y elaboramos la ecuación de predicción de la siguiente manera: 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) Los valores estimados son: 


(Intercept) -67.4679 51.1995 -1.318 0.229 AI YD SU de 
altura 0.8007 0.3071 2.608 0.035* 





peso = -67.4679+0.8007 * altura. 


 _ _ ____  Q_ _Qz»_—_ __ __ e yg qni[noe A zz 
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14. Comandos útiles. 





El éxito es el resultado feliz y 
satisfactorio de un asunto, negocio 
o actuación. 





=S 


14. Referencia de comandos útiles. 


Algunos comandos en R: 


data() conjuntos de datos disponibles. Se 
listan los ficheros de datos que sum- 
inistra o incorpora el programa. 


attach(fichero) carga en memoria las variables del 
data frame 


detach(fichero) descarga de la memoria las variables 
del data frame 


ls() Lista de los objetos que están en 
memoria. 


rm(objeto) Elimina el objeto en memoria 


attributes(data.frame) Lista de los objetos en memoria 
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help.start( 


getwd() 
setwd(); 


na.omit(x) 


is.na(x) 


which(is.nan(x)) 


tapplv(variable, factor, func) 


apply(data. frame, op, fune) 


table(f1,f2) 


split (Variable, Factor) 
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Con esta ayuda en html es posible 
realizar búsquedas. 
Directorio de trabajo 


Cambia el directorio, como 
setwd(**C:/data””) 

elimina las observaciones con datos 
ausentes (NA) 


devuelve TRUE cuando encuentra 
valor omitido (NA) 


devuelve los indices de los valores 
con TRUE para (NA) 


aplica la función func a las variables 
Var por factores 


aplica una función a las filas si 
op=1 0 a las columnas si op=2, del 
data.frame 


calcula la tabla de frecuencias para 
factores f1.f 


descompone la variable según los 
factores 
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Comandos de uso básico de R: 
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Instalación /carga de datos: 


install packages() Visualiza los paquetes de datos disponibles en internet. 


install packages(name) | Descarga el paquete indicado. 


library() Visualiza los paquetes disponibles. 


library(name) Carga el paquete indicado. 


data() Visualizar los datos disponibles. 


data(mame) Carga en memoria el dato indicado. 


Manejo de datos: 


Nombre Comando [Epica 
dsd 
dida 
ridad, movida) 


names(data) Muestra los nombres de las columnas 


objects(), ls() Visualiza las variables cargadas en memoria. 


rm(data?, data2) Elimina las variables indicadas. 


helpídata), ?data Muestra la ayuda asociada con el comando o variable. 
Ctrl+L Borra la pantalla. 
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Operadores: 


Operadores | 
faz Diferente de ! NO lógico 


Multiplicación | O lógico 


/ División > Mayor que is.na(x) Ausente? 
ú Potencia <= Menor o Igual que AN 


TZ División Entera | >= Mayor o Igual que AN 





Funciones: 


Funciones 
meaníx) Media 
Cuasidesviación 


sum(x) Suma los elementos de x cor(x,y) Correlación ( 
prod(x) Producto de los elementos max(x) El máximo 
:ia() ET mínimo | 
cos(x) Coseno range(x) Retorna el máximo y mínimo | 
tan(x) Tangente Ordena las componentes de x 


round(x,n) redondea a n dígitos which(condición) los índices que cumplen la 


condición 
cumsum(x) calcula las sumas acumuladas | summary Resumen de las variables 
11, 11+%2, 11+122+23, 
21+22+...+ Ln 
choose(n, k) número combinatorio de n so- 


bre k 
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Comandos para el análisis numérico de datos: 


Noni Comando | Espias 
quanto, 075) 
Tabla de frecuencias absolutas 





Comandos para el análisis gráfico de datos: 


Nombre Comando | Esplcación 7 


stem(data) Diagrama de tallos y hojas 


boxplot(data) Gráfico boxplot 
plot(data1, data2) Gráfico de puntos 


pairs(data) Gráfico de dispersión cruzado 
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